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S, BATEL (AMAR, 
经 成 为 这 个 时 代 激 动人 心 、 值 得 期 待 的 技术 ， 


当下 非常 热门 的 技术 。 其 概念 在 20 世 纪 80 年 代 就 已 经 炒 得 火热 ， 但 是 由 于 软 硬 件 两 方面 的 技术 局 限 使 其 两 度 陷入 低谷 。 而 如 今 
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度 、 腾 讯 、 阿 里 等 ) 纷纷 在 人 工 智 能 领域 密集 布局 ， 通 过 巨额 研发 投入 、 人 才 储 备 、 投 资 并 购 及 开源 合作 等 方式 极力 打造 各 自 的 人 工 智能 生态 圈 。 人 工 智能 
或 将 成 为 未 来 10 年 乃至 更 长 时 间 内 IT 产业 发 展 的 焦点 。 究 其 原因 ， 除 了 互联 网 大 数据 积累 、 计 算 能 力 提 升 及 计算 成 本 降低 等 推动 因素 外 ， 其 本 质 原 因 是 孜孜 不 倦 积 累 30 多 年 的 神经 网 络 技术 的 集中 爆发 。 
宁 度 学 习 的 核心 。 作 为 一 门 重要 的 机 器 学 习 技术 ， 其 已 经 广泛 应 用 于 自动 驾驶 、 机 器 翻译 、 语 


神经 网 络 (Neural Network) 是 人 工 智 能 领域 最 重要 的 基础 模型 之 一 ， 也 是 目前 非常 热门 的 研究 方向 一 
多 前 沿 领域 。 而 当前 人 工 智能 领域 的 诸多 应 用 平台 (如 智能 客服 等 ) 都 基于 Java 服 务 框架 开发 ， 因 此 ， 通 过 Java 实 现 机 器 学 习 算法 对 于 业务 平台 实现 真正 的 智能 化 非常 重要 
憾 的 是 ， 现 有 的 书籍 要 么 只 前 述 机 器 学 习 方 面 的 算法 理论 ， 要 么 只 阐述 Java 理 论 ， 缺 少 基于 工程 性 语言 的 机 器 学 习 算 法 实现 ， 由 此 带 来 的 问题 是 智能 化 应 用 产品 的 落地 和 实现 过 程 的 复杂 化 
念 、 知 识 点 
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音 识别 、 图 像 识别 等 许 
作为 一 本 集 神经 网 络 理论 、 神 经 网 络 Java 实 现 及 优秀 案例 于 一 体 的 书 ， 本 书 以 一 种 简单 易 懂 、 循 序 渐进 的 方式 介绍 神经 网 络 。 本 书 由 10 章 构成 。 首 先 系统 、 全 面 地 前 述 了 神经 网 络 的 相关 概 
z 等 。 最 后 介绍 了 一 些 经 典 案例 。 结 合 Java 实 现 神 经 网 络 架构 是 本 书 的 一 


遗 
及 特征 。 然 后 重点 介绍 了 神经 网 络 学 习 过 程 的 细节 ， 如 何 用 Java 实 现 神经 网 络 特性 及 设计 神经 网 络 架构 ， 如 何 优化 调整 神经 网 络 参 数 等 
个 主要 特色 。 这 是 一 本 基于 Java 语 言 前 述 神经 网 络 架构 特性 、 设 计 实 现 过 程 又 包含 经 典 实践 案例 的 优秀 书籍 。 

本 书 的 读者 对 象 如 下 : 1) 神经 网 络 初学 者 ， 本 书 全 面前 述 了 神经 网 络 的 相关 概念 、 知 识 点 以 及 神经 网 络 架构 的 创建 过 程 ; 2) 有 Java 背 景 且 对 智能 化 方向 感 兴趣 的 软件 开发 者 ， 本 书 介 绍 了 如 何 基 于 
Java 实 现 神 经 网 络 核心 算法 ; 3) 智能 化 软件 开发 人 员 ， 本 书 提供 了 基于 神经 网 络 Java 实 现 的 诸多 案例 ， 为 解决 实践 中 的 问题 提供 了 很 好 的 借鉴 。 本 书 不 需要 读者 有 深厚 的 数学 基础 ， 但 是 懂 一 些 机 器 学 习 基 
和 前 来 汽车 研发 工程 师 夏 妍 。 非 常 感谢 百度 地 图 刘 误 的 牵线 引荐 ， 让 我 能 有 机 会 和 机 械 工业 出 版 社 合 作 。 囊 心 感谢 刘 误 、 百 度 美国 大 数据 实验 

机 械 工 业 出 版 社 张 梦 玲 编辑 的 无 私 帮助 。 
尔 受 益 菲 浅 。 
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础 知识 更 有 助 于 理解 本 书 。 
参与 本 书 翻译 工作 的 人 员 主 要 有 : 百度 研发 工程 师 王 彩 起 
室 的 杨涛 、 百 度 推荐 技术 平台 部 的 尚 斌 及 网 易 产 品 经 理 马 庆 提 出 的 修改 建议 。 也 非常 感谢 清华 大 学 公派 加 州 大 学 伯克利 分 校 博 士 顾 维 簿 


限于 水 平 ， 对 中 文 语言 的 表达 及 内 容 的 理解 难免 存在 不 当 之 处 ， 在 此 敬 请 读者 批评 指正 。 本 人 十 分 荣幸 能 有 机 会 成 为 本 书 的 译 者 ， 认 真 阅读 本 书 也 一 定 会 使 
2018 年 5 月 于 厦门 
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AS 
程序 员 需 要 持续 不 断 地 学 习 ， 而 且 经 常会 面 对 新 技术 和 新 方法 的 挑战 。 生 活 中 人 们 虽然 习惯 了 重复 的 事情 ， 但 也 会 经 历 新 的 事情 。 学 习 过 程 是 科学 界 最 有 趣 的 话题 之 一 ， 很 多 尝试 都 试图 描述 或 者 再 现 
人 类 的 学 习 过 程 。 
本 书 的 主要 挑战 是 学 习 并 掌握 业界 最 新 的 内 容 。 昌 然 神 经 网 络 这 个 名 字 可 能 看 起 来 很 奇怪 ， 甚 至 可 能 误 认 为 它 是 关于 神经 学 的 ， 但 是 我 们 通过 把 重点 放 在 你 决定 购买 这 本 书 的 原因 上 来 简化 这 些 细微 差 
别 。 我 们 打算 建立 一 个 框架 ， 告 诉 你 神经 网 络 其 实 很 简单 ， 很 容易 理解 ， 你 不 需要 有 足够 的 先 验 知 识 ， 就 完全 可 以 理解 本 书 提 到 的 概念 。 
因此 ， 我 们 希望 你 充分 掌握 本 书 的 内 容 ， 在 面 对 来 手 问题 时 ， 能 始终 以 初学 者 的 态度 运用 神经 网 络 的 功能 来 解决 。 本 书 对 提 到 的 每 个 概念 都 用 简单 的 语言 进行 解释 ， 但 理解 它 也 需要 一 定 的 技术 背景 。 
本 书 的 目的 是 让 你 了 解 智能 应 用 可 以 通过 简单 语言 编写 


解释 基本 神经 元 结构 ( 单 层 感 知 机 、 学 习 机 ) ， 以 及 激活 函数 、 权 重 和 学 习 算 法 。 此 外 ， 该 章 还 演示 了 用 Java 创 建 基本 神经 网 络 的 整个 过 程 。 


各 章 概览 
第 1 章 主要 介绍 神经 网 络 的 概念 
第 2 章 主要 介绍 神经 网 络 学 习 过 程 的 细节 ， 解 释 几 个 有 用 的 概念 ， 如 训练 、 测 试 和 验证 ， 演 示 如 何 实现 训练 和 验证 算法 、 如 何 进 行 误差 评估 。 
监督 学 习 的 特性 ， 展 示 这 类 神经 网 络 的 训练 算法 ， 以 及 如 何 用 Java 实 现 这 些 特性 。 


neat 


第 3 章 主要 讨论 感知 机 和 


第 4 章 主 要 介绍 无 监督 学 习 和 自 组 织 映 射 ， 即 Kohonen 神 经 网 络 在 分 类 和 聚 类 问题 中 的 应 用 。 


第 5 章 主 要 阐述 如 何 用 神经 网 络 解决 天 气 预报 的 问题 ， 你 会 看 到 来 自 不 同 地 区 、 不 同时 间 的 历史 天 气 数据 记录 ， 并 学 习 如 何在 神经 网 络 训练 之 前 对 数据 进行 预 处 理 。 

第 6 章 主要 介绍 分 类 问题 ， 这 属于 监督 学 习 的 范畴 。 运 用 患者 的 数据 构建 基于 神经 网 络 的 专家 系统 ， 专 家 系统 能 够 根据 患者 的 症状 给 出 诊断 结果 。 

第 7 章 讨 论 如 何 应 用 无 监督 学 习 算 法 和 神经 网 络 实现 聚 类 ， 进 而 实现 客户 画像 聚 类 。 

第 8 章 主要 介绍 另 一 种 涉及 神经 网 络 的 常见 任务 : 光学 字符 识别 (OCR) 。OCR 非 常 有 用 ， 它 显示 了 神经 网 络 强大 的 学 习 能 力 。 

第 9 章 主要 介绍 神经 网 络 优化 的 相关 技术 ， 如 输入 选择 ， 切 分 训练 数据 集 、 验 证 数据 集 和 测试 数据 集 的 较 优 方法 ， 以 及 数据 过 滤 和 隐 含 神经 元 个 数 的 选择 。 

第 10 章 主要 介绍 神经 网 络 领域 的 新 技术 动态 ， 启 发 你 理解 并 设计 出 适用 于 更 复杂 问题 的 新 策略 。 

附录 内 容 为 在 线 内 容 ， 可 以 通过 以 下 链接 下 载 : https://www.packtpub.com/sites/default/files/downloads/Neural Network Programming with Java SecondEdition Appendices.pdf。 附 录 内 
容 主要 涉及 搭建 Netbeans 开 发 环境 的 详细 步骤 ， 搭 建 Eclipse 开发 环境 的 详细 步骤 。 
阅读 准备 


需要 Netbeans (www.netbeans.org) 或 者 Eclipse (www.eclipse.org) 软件 ， 两 者 都 是 免费 的 ， 可 以 从 官方 网 站 下 载 。 


本 书 读者 对 象 

本 书 适合 以 下 Java 开 发 者 : 想 知道 如 何 运 用 神经 网 络 的 功能 开发 更 智能 的 应 用 。 同 时 本 书 适用 于 那些 处 理 大 量 复杂 数据 并 希望 在 日 常 应 用 中 有 更 高 效率 的 人 士 。 本 书 的 读者 最 好 具有 一 些 统计 计算 的 基 
础 知识 。 
下 载 示例 代码 


可 以 从 网 站 http://www.packtpub.com 或 华章 网 站 www.hzbook.com 下 载 本 书 中 的 示例 代码 。 


第 1 章 ”神经 网 络 入 门 


本 章 将 介绍 神经 网 络 及 其 设计 目的 。 作 为 后 续 章节 的 基础 ， 本 章 主要 介绍 神经 网 络 的 基本 概念 。 本 章 将 讨论 以 下 主题 : 
人 工 神经 元 

“ 权重 和 偏 置 

.激活 函数 

. 神经 元 层 


. 使 用 Java 实 现 神经 网 络 


1.1 “探索 伸 经 网 络 


听 到 神经 网 络 这 个 词 ， 从 直觉 上 我 们 会 想到 大 脑 ， 的 确 ， 我 们 可 以 将 大 脑 看 成 一 个 大 型 的 天 然 神经 网 络 。 然 而 ， 人 工 神经 网 络 又 是 什么 呢 ? 人工 是 一 个 与 天 然 相对 的 词 ， 我 们 首先 想到 的 就 是 人 工大 脑 
或 者 机 器 人 ， 这 就 是 所 谓 的 人 工 。 在 这 种 情况 下 ， 受 人 脑 的 启发 ， 我 们 创建 出 一 个 和 人 脑 相似 的 结构 ， 称 之 为 人 工 智 能 。 


ANN 初 学 者 可 能 认为 本 书 是 讲 如 何 构建 智能 系统 的 ， 例 如 入 工 大脑， 智能 系统 能 用 Java 代 码 模拟 人 类 思维 ， 是 这 样 吗 ” 答 案 是 肯定 的 ， 但 是 ， 我 们 不 会 像 电影 《黑客 帝国 》 中 那样 讨论 如 何 创造 人 工 思 
考 机 器 ; 而 会 介绍 人 工 神经 网 络 解决 方案 的 设计 过 程 ， 它 能 够 利用 整个 java 框架 ， 从 原始 数据 抽象 知识 。 


1.2 ”人工 伸 经 网 络 


在 不 了 解 神经 网 络 的 起 源 和 相关 术语 的 情况 下 ， 无 法 讨论 神经 网 络 。 本 书 中 神经 网 络 (NN) 和 人 工 神经 网 络 (ANN) 是 同义词 ， 尽 管 NN 因 涵盖 自然 神经 网 络 而 更 加 通用 。 那 么 ， 什 么 是 ANN 呢 ? 下 
面 探究 这 个 词 的 历史 。 


20 世 纪 40 年 代 ， 神 经 生理 学 家 Warren McCulloch 和 数学 家 Walter Pitts 将 神经 学 基础 和 数学 运算 结合 起 来 ， 设 计 了 人 工 神经 元 的 第 一 个 数学 实现 。 当 时 ， 人 脑 被 大 量 研究 以 弄 懂 那 些 潜在 及 神秘 的 行 
为 ， 不 过 主要 在 神经 学 领域 。 众 所 周知 ， 生 物 神 经 元 结构 有 一 个 细胞 核 和 多 个 树 突 (接收 来 自 其 他 神经 元 传 入 的 信号 ) ， 以 及 一 个 轴 突 (将 信号 传递 给 其 他 神经 元 ) ， 如 图 1-1 所 示 。 


图 1-1 生物 神经 元 结构 
McCulloch 和 Pitts 的 创新 是 在 神经 元 模型 中 加 入 了 数学 成 分 ， 他 们 假设 神经 元 是 一 个 简单 的 处 理 器 ， 用 于 合并 所 有 输入 信号 并 产生 新 的 信号 以 激活 其 他 神经 元 ， 如 图 1-2 所 示 。 


此 外 ， 考 虑 到 大 脑 由 数 十 亿 个 神经 元 组 成 ， 每 个 都 与 成 王 上 万 个 其 他 神经 元 相 联系 ， 产 生 了 数 万 亿 的 连接 ， 因 此 我 们 讨论 的 是 一 个 巨大 的 网 络 结构 。 基 于 这 个 事实 ，McCulloch 和 Pitts 为 单个 神经 元 设 


计 一 个 简单 的 模型 ， 最 初 用 来 模拟 人 类 视觉 。 当 时 可 用 的 计算 器 或 计算 机 资源 虽然 有 限 ， 但 能 很 好 地 处 理 数 学 运算 。 即 使 今天 ， 像 视觉 和 声音 识别 这 类 任务 ， 没 有 特殊 的 框架 仍然 很 难 编程 实现 。 然 而 ， 相 
比 于 复杂 的 数学 运算 ， 人 脑 可 以 更 高 效 地 识别 声音 和 图 像 ， 这 激 起 了 科学 家 和 研究 人 员 的 兴趣 。 


图 1-2 ”神经 元 模型 


然而 ， 众 所 周知 ， 人 脑 执 行 的 所 有 复杂 活动 都 基于 所 学 知识 ， 为 了 克服 传统 算法 在 人 类 易于 解决 的 问题 上 所 面临 的 困难 ， 我 们 设计 了 ANN 解 决 方案 ， 期 望 它 具备 基于 外 部 刺激 (数据 ) ， 通 过 自学 习 来 
解决 问题 的 能 力 ( 见 表 1-1) 。 


表 1-1 人 类 和 计算 机 可 解决 的 任务 


人 类 可 解决 的 任务 计算 机 可 解决 的 任务 


图 像 分 类 复杂 计算 
语音 识别 tay ZY Fa 
人 上 脸 辨识 信号 处 理 


基于 经 验 预 测 事件 操作 系统 管理 


1.2.1 神经 网 络 是 如 何 组 织 的 


结合 人 脑 的 特点 和 结构 ， 可 以 说 ANN 是 一 种 自然 启发 的 方法 。 每 个 神经 元 与 许多 其 他 神经 元 相 接 ， 这 些 神经 元 又 会 和 其 他 大 量 神经 元 相连 ， 形 成 一 个 高 度 互 连 的 结构 。 本 书后 续 
之 间 的 连通 性 解释 了 学 习 能 力 ， 因 为 每 个 连接 都 可 以 根据 刺激 和 期 望 目标 进行 配置 。 


1.2.2 ”基本 元 素 一 人 工 昼 经 元 


我 们 来 看 看 最 基本 的 人 工 神经 元 素 一 一 人 工 神经 元 。 已 证 明生 物 神经 元 是 信号 处 理 器 ， 神 经 元 中 的 树 突 会 根据 接收 到 信号 的 强度 和 振幅 ， 发 送信 号 到 轴 突 。 可 以 这 样 认为 ， 神 经 元 在 输入 上 有 一 个 信号 
收集 器 ， 在 输出 上 有 一 个 激活 单元 ， 它 可 以 触发 一 个 新 的 信号 ， 然 后 传递 给 其 他 神经 元 ， 如 图 1-3 所 示 。 


0 输出 信号 


| 偏 置 项 


图 1-3 人工 神经 元 


Qaz DAP ATP, AEE BA, ika, AiR A RHA A a AHA. A rA T A E ARTEM, DAEN, AA AERA A A ERETTA A ERA 


1.2.3 ”赋予 神经 元 生命 一 一 激活 消 数 

激活 函数 是 指 一 个 神经 元 根据 输入 信号 ， 执 行 计算 并 产生 输出 。 从 数学 方面 讲 ， 激 活 函数 用 于 为 神经 网 络 模型 的 处 理 加 入 非 线性 因素 ， 从 而 提供 人 工 神经 网 络 的 非 线 性 行为 ， 这 对 模拟 生物 神经 元 的 非 
线性 特征 非常 有 用 。 激 活 函 数 通 惠 是 一 个 非 线 性 函数 ， 输 出 限制 在 某 个 区 间 范 围 内 ， 但 某 些 特定 情况 下 ， 也 可 以 是 线性 函数 。 

虽然 任何 函数 都 可 以 用 作 激 活 函 数 ， 但 是 本 章 主要 介绍 常用 的 几 种 ， 见 表 1-2。 


表 1-2 ”常见 激活 函数 


函数 


A AH IE HI pa AK 


硬 国 值 困 数 


线性 图 数 fix) = ax 


在 这 些 函 数 和 图 形 中 ， 系 数 a 可 以 通过 激活 函数 进行 设置 。 


124 可 变 参数 一 权重 


尽管 神经 网 络 的 结构 能 固定 ， 但 通过 神经 元 之 间 的 连接 权重 能 够 增强 或 减弱 接收 到 的 神经 信号 ， 所 以 可 以 通过 修改 权重 影响 神经 元 的 输出 。 因 此 ， 神 经 元 的 激活 不 仅 依赖 输入 信号 ， 还 依赖 权重 。 如 果 
输入 来 自 其 他 神经 元 或 者 外 部 世界 (刺激 ) ,权重 可 以 看 成 神经 网 络 在 神经 元 之 间 建 立 的 连接 。 由 于 权重 是 神经 网 络 的 内 部 组 件 且 影响 输出 ， 因 此 也 可 将 权重 视 为 神经 网 络 的 认 知 ， 即 改变 权重 将 会 改变 神 
经 网 络 对 外 界 刺激 的 应 答 。 


1.2.5 ”额外 参数 一 一 侗 置 


作为 一 个 独立 组 件 ， 偏 置 主要 为 激活 函数 增加 一 个 额外 信号 ， 这 对 人 工 神 经 元 非常 有 用 。 它 的 作用 类 似 一 个 输入 ， 只 是 这 个 输入 等 于 一 个 固定 值 (通常 是 1) 乘 以 相关 性 权重 。 这 一 特性 有 助 于 神经 网 络 
认 知 表现 为 一 个 更 纯粹 的 非 线性 系统 ， 假 设 当 所 有 输入 都 为 零 时 ， 神 经 元 的 输出 不 仅 可 以 不 为 零 ， 反 而 可 以 由 偏 置 和 相关 权重 触发 一 个 不 同 的 值 。 


1.2.6 由 部 分 到 整体 一 一 层 


为 抽象 化 处 理 层次 ， 如 我 们 大 脑 处 理 问 题 的 方式 ， 神 经 元 按 层 组 织 。 输 入 层 接 收 外 部 世界 的 直接 刺激 ， 输 出 层 触 发 一 些 行为 ， 对 外 部 世界 产生 直接 影响 。 输 入 层 和 输出 层 之 间 ， 有 许多 隐 含 层 ， 某 种 意 
义 上 ， 这 些 隐 含 层 对 外 部 世界 不 可 见 。 在 人 工 神经 网 络 中 ， 同 一 层 的 所 有 神经 元 具有 相同 的 输入 和 激活 函数 ， 如 图 1-4 所 示 。 
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IN 神经 连接 
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图 1-4 神经 网 络 层 
神经 网 络 由 几 个 互相 连接 的 层 组 成 ， 形 成 所 谓 的 多 层 网 络 。 神 经 层 因 此 可 以 分 为 输入 层 、 隐 含 层 和 输出 层 。 
事实 上 ， 追 加 一 个 神经 层 可 以 增强 神经 网 络 表达 复杂 知识 的 能 力 。 


Qaz 无 论 层 数 多 少 ， 每 个 神经 网 络 都 至 少 有 一 个 输入 /输出 层 。 一 个 多 层 网 络 中 ， 输 入 和 输出 层 之 间 的 层 叫 作 隐 侈 层 。 


1.2.7 ”神经 网 络 体系 结构 

神经 网 络 可 以 有 不 同 的 布局 ， 主 要 取决 于 神经 元 或 层 之 间 是 如 何 连 接 的 。 每 一 个 神经 网 络 体系 结构 都 是 为 特定 目标 而 设计 。 神 经 网 络 可 以 应 用 于 许多 问题 ， 根 据 问题 的 性 质 ， 神 经 网 络 旨 在 更 高 效 地 解 
决 问题 。 

神经 网 络 体系 结构 分 类 如 下 : 

. 神经 元 连接 


- 单 层 网 络 


1.2.8 ” 单 层 网 络 


单 层 网 络 体系 结构 中 ， 所 有 神经 元 都 处 于 同一 层 ， 形 成 单个 层 ， 如 图 1-5 所 示 。 


图 1-5 单 层 网 络 


神经 网 络 接收 输入 信号 并 送 入 神经 元 ， 进 而 产生 输出 。 神 经 元 可 以 彼此 高 度 连接 ， 无 须 递 妥 。 如 单 层 感 知 机 、 学 习 机 (Adaline) 、 自 组 织 映射 、Elman、Hopfield 神 经 网 络 等 都 属于 单 层 网 络 体 系 结 
构 。 


1.2.9 BEM 


多 层 网 络 中 ， 神 经 元 分 成 多 个 层 ， 每 层 对 应 神经 元 的 一 个 平行 布局 ， 每 层 神经 元 都 共享 相同 的 输入 数据 ， 如 图 1-6 所 示 。 


图 1-6 ”多 层 网 络 


RARR (radial basis function) 和 多 层 感 知 机 都 是 这 种 体系 结构 的 典型 例子 。 这 种 网 络 对 于 设计 能 近似 表达 真实 数据 的 函数 非常 有 用 。 此 外 ， 因 为 经 过 多 层 处 理 ， 所 以 这 些 网 络 适用 于 非 线 性 数据 
的 学 习 ， 能 够 从 原始 的 非 线 性 数据 提取 或 识别 知识 ， 以 便于 更 好 地 分 类 或 决策 。 


1.2.10 ”前 馈 网 络 


神经 网 络 中 的 信号 流动 可 以 是 单 向 的 ， 也 可 以 是 递归 的 。 对 于 第 一 种 结构 ， 称 之 为 前 馈 网 络 ， 如 图 1-6 所 示 ， 输 入 信号 被 送 入 输入 层 ， 经 过 处 理 后 向 前 传递 到 下 一 层 。 多 层 感 知 机 和 径 向 基 函 数 也 是 前 馈 
网 络 的 好 例子 。 


1.2.11 反馈 网 络 


当 神 经 网 络 中 有 某 种 内 部 递归 时 ， 这 意味 着 信号 会 反 向 传递 到 已 经 接收 或 已 经 处 理 过 信号 的 神经 元 或 屋 ， 这 种 网 络 类 型 称 为 反馈 网 络 ， 如 图 1-7 所 示 。 


在 网 络 中 加 入 递归 ， 主 要 为 了 产生 动态 行为 ， 特 别 是 当 网 络 处 理 涉 及 时 间 序 列 或 者 模式 识别 的 问题 时 ， 就 需要 内 部 记忆 来 加 强 学 习 过 程 。 然 而 ， 这 种 网 络 训练 起 来 特别 困难 ， 因 为 除了 准备 训练 数据 之 
外 ， 训 练 过 程 终归 是 一 个 递归 行为 (例如 ， 一 个 神经 元 的 输出 反 过 来 可 能 又 会 成 为 它 的 输入 ) 。 大 多 数 反 馈 网 络 都 是 单 层 的 ， 比 如 Elman 网 络 和 Hopfield 网 络 。 也 有 少数 是 递归 的 多 层 网 络 ， 比 如 echo 和 递 
归 多 层 感 知 机 网 络 。 


图 1-7 反馈 网 络 


1.3 ”从 无 和 到 认 类 一 一 学 习 过 程 


神经 网 络 通过 调整 神经 元 之 间 的 连接 进行 学 习 ， 也 就 是 权重 。 如 1.2.4 节 所 述 ， 权 重 代表 神经 网 络 的 认 知 。 同 样 的 输入 、 不 同 的 权重 会 导致 网 络 产生 不 同 的 结果 。 因 此 ， 根 据 某 种 学 习 规则 调整 权重 ， 可 
以 改善 神经 网 络 的 输出 结果 。 学 习 过 程 的 通用 模式 如 图 1-8 所 示 。 


因为 神经 网 络 有 期 望 输出 ， 所 以 图 1-8 描 述 的 过 程 叫 作 监 督学 习 ， 但 是 神经 网 络 也 可 以 没有 任何 期 望 输出 (无 监督 ) ， 而 是 通过 输入 数据 学 习 而 得 。 第 2 章 将 深入 探究 神经 网 络 的 学 习 过 程 。 


期 望 输出 
a 


PUE Yei 


图 1-8 通用 学 习 模 式 


1.4 开始 纲 程 伸 经 网 络 实 跤 


本 书 将 介绍 用 Java 编 程 语言 实现 神经 网 络 的 整个 过 程 。Java 是 一 种 面向 对 象 的 编程 语言 ， 由 Sun 公 司 的 一 小 部 分 工程 师 在 20 世 纪 90 年 代 创建 ， 后 Sun 公 司 于 2010 年 被 Oracle 收 购 。 现 在 ，Java 应 用 在 许 
多 设备 中 ， 已 经 成 为 我 们 日 常生 活 的 一 部 分 。 


面向 对 象 语言 (比如 Java) ， 主 要 处 理 的 是 类 和 对 象 。 类 是 现实 世界 中 事物 的 抽象 ， 对 象 是 这 个 抽象 事物 的 一 个 实例 ， 有 点 类 似 汽车 (类 指 所 有 及 任何 汽车 ) 和 我 的 汽车 (对象 指定 的 汽车 一 一 我 的 ) 
的 关系 。Java 类 通常 由 属性 和 方法 (或 函数 ) 组 成 ， 包 含 面向 对 象 编程 (OOP) 思想 。 这 里 简要 回顾 一 些 概念 ， 而 不 会 深入 探究 ， 因 为 本 书 的 目标 仅仅 是 从 实用 角度 来 设计 和 创建 神经 网 络 。 与 这 个 过 程 相 
天 的 主要 有 4 个 概念 。 


As 


抽象 : 将 现实 世界 的 问题 或 规则 映射 到 计算 机 领域 ， 只 考虑 其 相关 特性 ， 不 考虑 阻碍 开发 的 细节 。 

-HRK 类 似 于 产品 封装 ， 其 中 ， 有 些 相 关 特 性 是 公开 的 〈 公 有 方法 ) ， 有 些 特性 隐藏 在 作用 域内 〈 私 有 的 或 者 受 保 护 的 ) ， 因 此 避免 了 信息 误 用 或 者 信息 过 多 。 

` 继承: 在 现实 世界 中 ， 对 象 的 多 个 分 类 以 分 层 的 方式 共享 属性 和 方法 ， 例 如 ， 车 辆 可 以 是 轿车 和 卡车 的 超 类 。 因 此 ， 在 OOP 中 ， 一 个 类 可 以 继承 另 一 个 类 的 所 有 特性 ， 从 而 避免 了 代码 重 写 。 
. 多 态 : 与 继承 几乎 相同 ， 不 同 之 处 在 于 ， 相 同 函 数 名 的 方法 在 不 同 的 类 上 表现 出 不 同 的 行为 。 


利用 本 章 介绍 的 OOP 思 想 和 神经 网 络 思想 ， 我 们 将 设计 实现 神经 网 络 的 第 一 个 类 集 。 如 前 所 述 ， 神 经 网 络 由 层 、 神 经 元 、 权 重 、 激 活 函 数 和 偏 置 组 成 。 层 主要 包括 三 类 : 输入 层 、 隐 含 层 和 输出 层 。 每 
层 都 有 一 个 或 者 多 个 神经 元 ， 每 一 个 神经 元 都 和 神经 输入 /输出 连接 ， 或 者 和 另 一 个 神经 元 连接 ， 这 些 连接 就 是 权重 。 


需要 重点 强调 一 下 ， 一 个 神经 网 络 可 能 有 许多 隐 含 层 ， 也 可 能 一 个 都 没有 ， 因 为 每 层 的 神经 元 数目 可 能 不 同 。 然 而 ， 输 入 层 和 输出 层 的 神经 元 个 数 分 别 等 于 神经 输入 /输出 的 个 数 。 
所 以 ， 让 我 们 开始 实现 吧 ! 首先 ， 定 义 以 下 类 。 

< Neuron: 定义 人 工 神 经 元 。 

- NeuralLayer: 抽象 类 ， 定 义 一 个 神经 元 层 。 

-InputLayer: 定义 神经 输入 层 。 

- HiddenLayer: 定义 输入 层 和 输出 层 之 间 的 层 。 

- OutputLayet: 定义 神经 输出 层 。 

-InputNeuron: 定义 神经 网 络 输入 中 出 现 的 神经 元 。 

- NeutalNet: 将 前 面 定 义 的 所 有 类 组 合成 一 个 人 NN 结构 。 


除了 这 些 类 之 外 ， 也 要 为 激活 了 尔 数 定义 一 个 I|ActivationFunction 接 口 。 这 是 必要 的 ， 因 为 激活 函数 与 方法 类 似 ， 需 要 作为 神经 元 的 一 个 属性 进行 分 配 。 所 以 要 为 激活 函数 定义 类 ， 这 些 类 需 实现 
IActivationFunction 接 口 : 


- Linear 
- Sigmoid 
“ Step 


* HyperTan 


第 1 章 的 编码 基本 完成 。 除 此 之 外 ， 还 需要 定义 两 个 类 。 一 个 用 于 异常 处 理 (NeuralException) ， 另 一 个 用 于 产生 随机 数 (RandomNumberGenerator) 。 最 后 ， 将 这 些 类 分 别 放 到 两 个 包 。 
edu.packt.neuralnet: 与 神经 网 络 相 关 的 类 (NeuralNet、Neuron、NeuralLayet 等 ) 


- edu.packt.neuralnet.math: 与 数学 相关 的 类 (TActivationFunction、Linear 等 ) 


为 了 节约 篇 幅 ， 本 书 不 会 对 每 个 类 进行 完整 描述 ， 只 重点 讨论 最 重要 类 的 关键 特性 。 欢 迎 读者 浏览 代码 的 Javadoc 文 档 以 便 获 得 实现 的 更 多 细节 。 


1.5 ”神经 元 类 


神经 元 类 是 本 章 代码 的 基础 类 。 根 据 理 论 ， 人 工 神经 元 有 如 下 属性 : 
“输入 
-HE 


> 偏 置 


“输出 


定义 一 个 在 后 续 例 子 中 很 有 用 的 属性 也 很 重要 ， 比 如 激活 函数 之 前 的 输出 。 接 下 来 ， 实 现 以 下 属性 : 


public class Neuron { 
protected ArrayList<Double> weight 
private ArrayList<Double> input; 
private Double output; 
private Double outputBeforeActivation; 
private int numberOfInputs = 0; 
protected Double bias = 1.0; 
private IActivationFunction activationFunction; 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/Text/... 


Ne 


当 实例 化 神经 元 时 ， 需 要 指定 输入 数据 的 个 数 以 及 激活 函数 。 构 造 函 数 如 下 : 


public Neuron (int numberofinputs, IActivationFunction iaf 
numberOfInputs=numberofinputs; 
weight=new ArrayList<>(numberofinputs+1) ; 
input=new ArrayList<>(numberofinputs) ; 
activationFunction=iaf; 


-a 
一 


注意 ， 为 偏 置 定义 另 一 个 权重 。 一 个 重要 的 步骤 是 初始 化 神经 元 ， 也 就 是 为 权重 赋 初 始 值 。 这 主要 在 init () 方法 中 完成 ， 通 过 随机 数 生成 器 静态 类 RandomNumberGenerator 生 成 随机 数 ， 赋 值 权 
注意 ， 设 置 权重 值 时 需要 防止 权重 数组 越界 : 


public void init(){ 
for(int i=0;i<=numberOfInputs; i++) { 
double newWeight = RandomNumberGenerator.GenerateNext () ; 
try{ 
this.weight.set (i, newWeight) ; 
} 


catch (IndexOutOfBoundsException iobe) { 
this.weight.add(newWeight) ; 
} 


wa 


最 后 ， 看 看 如 何在 calc () 方法 中 计算 输出 值 : 


public void calc() { 

outputBeforeActivation=0.0; 

| 

if (input!=null && weight!=null1) { 

for(int i=0;i<=numberOfInputs; i++) { 
outputBeforeActivationt+t= (i==numberOfInputs?bias:input.get (i) ) *weight.get (i); 
} 
} 

} 

output=activationFunction.calc (outputBeforeActivation) ; 


} 


首先 需要 对 所 有 输入 和 权重 的 乘积 进行 求 和 ( 偏 置 乘 最 后 一 个 权重 ，i==number-Ofinputs) ， 然 后 将 得 出 的 结果 保存 在 属性 outputBeforeActivation 中 。 激 活 函 数 用 这 个 值 计算 神经 元 的 输出 。 


1.6 NeuralLayer 类 


这 个 类 中 ， 将 把 在 同一 层 中 对 齐 的 神经 元 分 成 一 组 。 因 为 一 层 需 将 值 传递 给 另 一 层 ， 也 需要 定义 层 与 层 之 间 的 连接 。 类 的 属性 定义 如 下 : 


public abstract class NeuralLayer { 
protected int numberOfNeuronsInLayer; 
private ArrayList<Neuron> neuron; 
protected IActivationFunction activationFnc; 
protected NeuralLayer previousLayer; 
protected NeuralLayer nextLayer; 
protected ArrayList<Double> input; 
protected ArrayList<Double> output; 
protected int numberOfInputs; 
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bt 


这 个 类 是 抽象 的 ， 真 正 可 实例 化 的 层 类 是 InputLayer、HiddenLayer 和 Outp-utLayer。 创 建 一 个 层 时 ， 必 须 使 用 其 中 一 个 类 的 构造 函数 ， 这 几 个 类 具有 相似 的 构造 函数 : 


public InputLayer (int numberofinputs) ; 
public HiddenLayer (in 
public OutputLayer (in 


numberofneurons, [ActivationFunction iaf,int numberofinputs) ; 


numberofneurons, [ActivationFunction iaf, int numberofinputs) ; 


层 的 初始 化 和 计算 都 和 神经 元 一 样 ， 它 们 也 实现 了 init () 方法 和 calc () 方法 。 声 明 为 protected 类 型 ， 确 保 了 只 有 子 类 可 以 调用 或 覆盖 这 些 方法 。 


protected void init() { 
for (int i=0;i<numberOfNeuronsInLayer; i++) { 
try{ 
neuron.get (i) .setActivationFunction (activationFnc) ; 
neuron.get (1) .init(); 
}catch (IndexOutOfBoundsException iobe) { 
neuron.add (new Neuron (numberOf Inputs, activationFnc) ); 
neuron.get (1) .init(); 


} 


} 


protected void calc() { 

for(int i=0;i<numberOfNeuronsInLayer;it+) { 
neuron.get (i) .setInputs (this.input) ; 
neuron.get (i) .calc(); 
try{ 
output.set (i,neuron.get (i) .getOutput () ); 

}catch (IndexOutOfBoundsException iobe) { 
output.add(neuron.get (i) .getOutput () ) 


r 


} 


1.7 ActivationFunction#O 


在 定义 NeuralNetwork 类 之 前 ， 先 看 接口 的 Java 代 码 示例 : 


public interface IActivationFunction { 
double calc (double x); 
public enum ActivationFunctionENUM { 
STEP, LINEAR, SIGMOID, HYPERTAN 
} 
} 


calc () 方法 属于 实现 IActivationFunction 接 口 的 特定 的 激活 函数 类 ， 例 如 Sigmoid 函 数 : 


public class Sigmoid implements IActivationFunction { 
private double a=1.0; 
public Sigmoid (double _a){ 
this.a= a; 
} 
@Override 
public double calc (double x) { 
return 1.0/(1.0+Math.exp (-a*x) ); 
} 
} 


—_> 


这 是 多 态 性 的 一 个 示例 ， 即 在 相同 的 函数 名 下 ， 类 和 方法 呈现 不 同 的 行为 ， 产 生灵 活 的 应 用 。 


最 后 ， 定 义 神经 网 络 类 。 到 目前 为 止 ， 我 们 已 经 知道 ， 神 经 网 络 在 神经 层 中 组 织 神经 元 ， 且 每 个 神经 网 络 至 少 有 两 层 ， 一 个 用 来 接收 输入 ， 一 个 用 来 处 理 输出 ， 还 有 一 个 数量 可 变 的 隐 含 屋 。 因 此 ， 除 
了 具有 和 神经 元 以 及 NeuralLayer 类 相似 的 属性 之 外 ，NeuralNet 还 将 拥有 这 几 个 属性 ， 如 numberoflnputs、numberOfOutputs 等 。 


public class NeuralNet { 
private InputLayer inputLayer; 
private ArrayList<HiddenLayer> hiddenLayer; 
private OutputLayer outputLayer; 
private int numberOfHiddenLayers; 
private int numberOfInputs; 
private int numberOfOutputs; 
private ArrayList<Double> input; 
private ArrayList<Double> output; 
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X-MAS HENRI AAAS SZ : 


public NeuralNet (int numberofinputs, int numberofoutputs, 
int [] numberofhiddenneurons, 

TActivationFunction[]hiddenAcFnc, 
TActivationFunction outputAcFnc) 


如 果 隐 含 层 的 数量 是 可 变 的 ， 我 们 还 应 该 考虑 到 可 能 有 多 个 隐 含 层 或 0 个 隐 含 层 ， 且 对 每 个 隐 含 层 来 说 ， 隐 藏 神经 元 的 数量 也 是 可 变 的 。 处 理 这 种 可 变性 的 最 好 方法 就 是 把 每 个 隐 含 层 中 的 神经 元 数量 表 
个 整数 向 量 (参数 numberofhiddenlayers) 。 此 外 ， 需 要 为 每 个 隐 含 层 定义 激活 函数 ， 包 括 输出 层 ， 完 成 这 个 目标 所 需 的 参数 分 别 为 hiddenActivationFnc 和 outputAcFnc。 


示 为 


为 了 节约 篇 幅 ， 本 章 不 会 展示 这 个 构造 函数 的 完整 实现 ， 只 展示 层 的 定义 和 层 与 层 之 间 的 连接 。 首 先 ， 输 入 层 的 定义 如 下 : 


input=new ArrayList<>(numberofinputs) ; 
inputLayer=new InputLayer (numberofinputs) ; 


隐 含 层 的 定义 取决 于 隐 含 层 的 位 置 ， 如 果 恰 好 在 输入 层 后 ， 定 义 如 下 : 


hiddenLayer.set(i,new HiddenLayer (numberofhiddenneurons [i], 
hiddenAcFnc [i], inputLayer.getNumberOfNeuronsInLayer ())); 
inputLayer.setNextLayer (hiddenLayer.get (1) ); 


如 果 不 在 输入 层 之 后 ， 需 要 获得 前 一 个 隐 含 层 的 引用 : 


hiddenLayer.set(i, new HiddenLayer (numberofhiddenneurons [i], 
hiddenAcFnc[i],hiddenLayer.get (i-1) .getNumberOfNeuronsInLayer ())); 
hiddenLayer.get (i-1) .setNextLayer (hiddenLayer.get (i)); 


至 于 输出 层 ， 它 的 定义 与 隐 含 层 的 后 一 种 情况 比较 相似 ， 除 了 OutputLayer 类 和 可 能 没有 隐 含 层 的 事实 。 


if (numberOfHiddenLayers>0) { 
outputLayer=new OutputLayer (numberofoutputs, outputAcFnc, 


hiddenLayer.get (numberOfHiddenLayers-1) . 

getNumberOfNeuronsInLayer() ); 

hiddenLayer.get (numberOfHiddenLayers-1) .setNextLayer (outputLayer) ; 
}else{ 


outputLayer=new OutputLayer (numberofinputs, outputAcFnc, 
numberofoutputs) ; 
inputLayer.setNextLayer (outputLayer) ; 


} 


calc () 方法 执行 从 输入 到 输出 的 信号 传递 : 


public void calc() { 
inputLayer.setInputs (input) ; 
inputLayer.calc(); 
for(int i=0;i<numberOfHiddenLayers; i++) { 
HiddenLayer hl = hiddenLayer.get (1); 
hl.setInputs (hl.getPreviousLayer () .getOutputs ()); 
hl.calc(); 
} 
outputLayer.setInputs (outputLayer.getPreviousLayer () .getOutputs ()); 
outputLayer.calc(); 
this.output=outputLayer.getOutputs (); 


1.9 “运行 程序 
现在 应 用 上 述 类 。 如 下 是 一 段 测 试 类 的 代码 ， 在 main 方 法 中 创建 NeuralNet 类 的 对 象 nn。 这 是 一 个 简单 的 神经 网 络 ， 有 两 个 输入 ， 一 个 输出 ， 以 及 一 个 包含 3 个 神经 元 的 隐 含 层 : 


public class NeuralNetConsoleTest { 
public static void main(String[] args) { 
RandomNumberGenerator.seed=0; 


int numberOfInputs=2; 

int numberOfOutputs=1; 

int[{] numberOfHiddenNeurons= { 3 }; 

TActivationFunction[] hiddenAcFnc = { new Sigmoid(1.0) } ; 

Linear outputAcFnc = new Linear (1.0); 

System.out.println ("Creating Neural Networkhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/Text/..."); 
NeuralNet nn = new NeuralNet (numberOfInputs, numberOfOutputs, 

numberOfHiddenNeurons, hiddenAcFnc, outputAcFnc) ; 

System.out.printin ("Neural Network created!") ; 

nn.print (); 
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对 于 上 述 代 码 ， 为 神经 网 络 提供 两 组 数据 ， 看 会 产生 什么 输出 : 


double [] neuralInput = { 1.5 , 0.5 }; 
double [] neuralOutput; 
System.out.printin("Feeding the values ["+String.valueOf (neuralInput[0])+" ; "+ 
String.valueOf (neuralInput[1])+"] to the neuralnetwork") ; 

nn.setInputs (neuralInput) ; 

nn.calc(); 
neuralOutput=nn.getOutputs () ; 
neuralInput [0] 1.0; 
neuralInput [1] 2al; 
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nn.setInputs (neuraliInput) ; 

nn.calc(); 
neuralOutput=nn.getOutputs () ; 


EUT. 
Creating Neural Network... 
Neural Network created! 
Neural Network: edu.packt.neuralnet.NeuralNet@50d79dfe 
Inputs:ż 
Outputs:1 
Hidden Layers: 1 
Hidden Layer 0: 3 Neurons 
Feeding the values [1.5 ; 0.5] to the neural network 
Output generated:2.2503494075150003 


Feeding the values [1.0 ; 2.1] to the neural network 
Output generated:2.20891077871599644 


图 1-9 ”控制 台 输 出 


需要 记 住 ， 除 非 你 使 用 相同 的 seed 值 ， 否 则 每 次 运行 代码 都 会 生成 新 的 伪 随 机 权重 值 。 如 果 运 行 上 述 代码 ， 图 1-9 中 的 输出 也 会 出 现在 你 的 控制 台中 。 


1.10 本章 小 结 


本 章 主要 介绍 了 神经 网 络 是 什么 、 它 的 用 途 和 相关 的 基本 概念 。 另 外 ， 我 们 练习 了 如 何 应 用 神经 网 络 基 础 理论 ， 通 过 Java 对 每 个 神经 网 络 元 素 进 行 编程 ， 实 现 了 一 个 很 基础 的 神经 网 络 。 在 继续 学 习 高 
级 概念 之 前 ， 理 解 基 本 概念 很 重要 。 


第 2 章 将 深入 研究 神经 网 络 的 学 习 过 程 ， 并 通过 简单 的 例子 来 探讨 不 同类 型 的 学 习 。 


第 1 章 介 绍 了 神经 网 络 ， 现 在 来 了 解 神经 网 络 的 学 习 过 程 。 本 章 将 探讨 神经 网 络 学 习 的 相关 概念 及 其 对 应 的 Java 实 现 。 我 们 将 对 神经 网 络 学 习 过 程 的 基础 和 背后 的 思想 进行 回顾 ， 以 指导 我 们 用 Java 实 现 
学 习 算 法 ， 从 而 应 用 到 神经 网 络 实现 代码 中 。 本 章 将 讨论 以 下 主题 : 


. 优化 基础 

` 损失 函数 
‘RARE 

.学习 算法 

8 规则 
Hebbian 规 则 

- 学 习 机 /感知 机 

. 训练 、 测 试 和 验证 


. 数据 集 切 分 


2.1 神经 网 络 的 学 习 能 

神经 网 络 真 正 令 人 惊奇 的 是 从 环境 中 学 习 的 能 力 ， 就 像 有 智力 的 人 类 一 样 。 我 们 人 类 通过 观察 和 重复 进行 学 习 ， 直 到 完全 掌握 某 些 任务 或 者 概念 。 从 生理 学 角度 来 看 ， 人 脑 的 学 习 过 程 是 对 节点 (神经 
元 ) 之 间 神 经 连接 的 重新 配置 ， 从 而 形成 一 个 新 的 思维 结构 。 

神经 网 络 链接 本 质 上 是 在 整个 结构 中 执行 学 习 过 程 ， 这 一 特性 使 神经 网 络 能 足够 灵活 地 学 习 到 各 种 各 样 的 知识 。 与 普通 的 数字 计算 机 只 能 执行 编码 赋予 的 任务 不 同 ， 神 经 系统 能 够 根据 设 定 的 满意 度 标 
准 自动 改进 和 完成 新 的 任务 。 换 句 话说， 神经 网 络 不 需要 编写 程序 指令 ， 它 们 可 以 自己 学 习 程序 。 
如 何 通 过 学 习 解 决 问题 


考虑 到 每 个 待 解决 的 任务 都 可 能 有 大 量 理 论 上 可 行 的 解决 方案 ， 学 习 过 程 试图 从 中 寻找 一 种 能 产生 满意 结果 的 最 优 方 法 。 鼓 励 使 用 诸如 人 工 神经 网 络 (ANN) 这 类 结构 ， 因 为 它 通过 输入 刺激 (问题 / 
任务 相关 的 数据 ) ， 就 完全 有 能 力学 习 到 任意 类 型 的 知识 。 首 先 ，ANN 会 产 出 一 个 随机 结果 和 相应 的 误差 ， 基 于 这 个 误差 ，ANN 再 进行 参数 调整 。 


ta 可 以 将 ANN 参 数 GLE) 看 作 解 决 方案 的 组 成 部 分 。 假 设 每 个 权重 对 应 一 个 维度 ， 单 个 解决 方案 表示 解决 方案 超 空间 中 的 一 个 点 。 每 个 解决 方案 都 会 进行 误差 度量 ， 用 于 评估 这 个 解决 方案 离 
满意 标准 还 有 多 远 。 然 后 ， 学 习 算 法 通过 不 断 和 迭代 寻找 最 接近 满意 度 标 准 的 解决 方案 。 


2.2 ”学 习 模式 


神经 网 络 学 习 分 为 两 类 : 监督 学 习 和 无 监督 学 习 。 实 际 上 ， 人 脑 的 学 习 也 以 这 两 种 方式 运作 。 可 以 无 目的 地 从 观察 中 建立 认 知 (无 监督 ) ， 也 可 以 从 一 个 老师 讲授 的 正确 模式 中 学 习 认 知 (监督 ) 。 
种 模式 的 不 同 点 主要 在 于 是 否 依赖 特定 的 模式 ， 而 且 随 着 问题 不 同 ， 目 标 异 式 也 不 同 。 


监督 学 习 类 型 处 理 成 对 的 xs ( 自 变量 ) 和 ys ( 因 变 量 ) ， 目 标 是 将 它们 映射 成 一 个 函数 。 其 中 数据 Y 是 监督 者 ， 是 目标 期 望 的 输出 ;X 是 原始 独立 数据 ， 联 合 起 来 共同 生成 数据 Y。 这 类 似 一 个 老师 教学 
生 执 行 某 项 特定 的 任务 ， 如 图 2-1 所 示 。 


Subjects to learn: 
Inference 


recasting 


Pattern Recognition 


A2-1 ”监督 学 习 示 例 
监督 学 习 模式 的 特点 是 有 一 个 直观 的 误差 参照 ， 即 当前 实际 输出 和 目标 之 间 的 比较 。 用 损失 函数 量化 期 望 输出 和 实际 输出 之 间 的 这 种 失 配 程度 ， 进 而 指导 网 络 参数 的 学 习 。 
QER 在 优化 问题 中 ， 损 失 部 数 只 是 要 最 小 化 的 度量 函数 。 这 意味 着 我 们 只 需要 尽 可 能 找到 将 损失 画 数 降 到 最 低 值 时 的 参数 。 
对 于 损失 函数 ， 本 章 后 面 将 有 更 详细 的 讨论 。 


监督 学 习 适 用 于 模式 已 知 的 任务 ， 比 如 图 像 分 类 、 语 音 识别 、 遂 数 近 似 或 者 预测 。 注 意 ， 对 于 监督 学 习 ， 应 该 为 神经 网 络 提供 先 验 知识 ， 同 时 包含 输入 自 变量 (X) 和 输出 因 变 量 (Y) 。 输 出 因 变 量 Y 
的 存在 是 监督 学 习 的 必要 条 件 。 


2.2.2 Amery 


在 无 监督 学 习 中 ， 只 处 理 不 带 任何 标签 或 类 别 的 数据 ( 见 图 2-2) 。 因 此 ， 我 们 试图 通过 自 变 量 数据 (X) 来 进行 推断 或 者 提取 知识 。 


图 2-2 无 监督 学 习 示 例 
这 个 过 程 类 似 于 人 类 根据 个 人 经 验 和 配套 准则 进行 自我 学 习 。 无 监督 学 习 ， 没 有 明确 的 期 望 模式 ， 而 是 运用 给 定 的 数据 无 监督 地 推断 出 因 变 量 输出 Y。 
Gir “在 元 监督 学 习 中 ， 自 变量 数据 之 间 越 接近 ， 它 们 的 输出 就 应 该 越 相 似 。 损 失 函 数 应 该 考虑 这 个 规律 ， 而 监督 模式 则 无 须 考虑 。 


无 监督 学 习 可 以 应 用 于 聚 类 、 数 据 压缩 、 统 计 建 模 和 语言 建 模 中 。 第 4 章 将 会 对 该 学 习 模式 进行 更 详细 的 介绍 。 


23 学习 过 程 


到 目前 为 止 ， 我 们 已 经 从 理论 上 定义 了 学 习 过 程 ， 以 及 如 何 执行 这 一 过 程 。 但 为 了 在 实践 中 实现 该 学 习 算 法 ， 我 们 必须 深入 研究 它 背 后 的 数学 逻辑 。 为 简单 起 见 ， 本 章 主要 讨论 监督 学 习 案例 。 然 而 ， 
这 里 仍然 会 介绍 一 种 运用 无 监督 学 习 更 新 权重 的 规则 。 学 习 算 法 是 一 种 驱动 神经 网 络 学 习 过 程 执行 的 程序 ， 主 要 由 神经 网 络 结构 决定 。 从 数学 角度 看 ， 我 们 希望 能 找到 驱动 损失 函数 C (X, Y) 达到 最 小 可 
能 值 的 最 优 权 值 W。 然 而 ， 有 时 学 习 过 程 无 法 找到 一 组 满足 验收 标准 的 权重 ， 此 时 必须 设置 停止 条 件 ， 以 防止 神经 网 络 一 直 学 习 ， 从 而 导致 java 程序 进入 死 循环 。 


一 般 来 说 ， 学 习 过 程 的 执行 方式 如 图 2-3 所 示 。 


用 验收 标准 定义 | 将 数据 ( 环境 ) 
神经 网 络 结构 和 目标” 时 现 给 神经 网 络 


计算 神经 网 络 的 
Na] YF AUR FE 


重新 配置 a j4 -一 神经 网 络 在 
神经 权重 | BLAS Erne? + 验收 标准 内 吗 ? 


神经 网 络 神经 网 络 
无 法 学 习 环 境 学 习 了 环境 


图 2-3 学习 过 程 的 流程 图 


2.3.1 SRA SER MESA 


现在 详细 讨论 损失 函数 的 作用 。 为 简单 起 见 ， 这 里 将 讨论 二 元 函数 的 损失 函数 ， 其 形状 是 一 个 超 曲面 。 这 里 只 考虑 了 两 个 权重 (用 二 维 空间 和 高 度 来 表示 损失 函数 ) 。 假 定 损失 函数 的 形状 如 图 2-4 所 


从 图 2-4 中 可 以 看 到 有 个 最 优点 ， 在 最 优点 处 损失 函数 接近 于 零 。 但 是 如 何 通 过 编程 实现 呢 ” 可 以 将 其 看 成 一 个 数学 优化 问题 ， 此 时 损失 函数 是 一 个 优化 问题 : 


根据 费 马 优化 定理 ， 我 们 知道 最 优 解 位 于 所 有 维度 斜率 都 为 零 的 位 置 ， 即 偏 导数 应 该 为 零 ， 且 应 该 是 凸 函数 (对 于 极 小 值 情况 ) 。 最 优 解 的 搜索 从 任意 解 W 开 始 ， 沿 着 梯度 下 降 的 方向 ， 这 就 是 所 谓 的 
梯度 法 。 


最 优 解 ， 在 
、 ”这 里 损失 函数 
—— rM 


权重 wl 


图 2-4 损失 函数 


23.2 ”在 学 习 过 程 中 更 新 权重 


根据 所 用 的 损失 函数 ， 更 新 规则 将 决定 如 何 改变 权重 ， 从 而 使 损失 函数 值 随 权重 的 更 新 越 来 越 小 。 
W (k+1) =W (k) +AW 
这 里 ，k 指 第 k 次 迭代 ,，W (k) BORAR ANANE, k+ tS PARAR. 


权重 更 新 可 以 通过 在 线 或 批 处 理 方式 执行 。 这 里 在 线 意 味 着 权重 在 数据 集中 每 个 记录 输入 后 更 新 。 批 量 更 新 意味 着 ， 权 重 在 数据 集中 的 所 有 记录 全 部 输入 神经 网 络 后 更 新 。 这 将 在 本 章 末尾 的 代码 中 详 
细 探 讨 。 


2.3.3 ”计算 损失 函数 

神经 网 络 学 习 时 ， 会 从 一 个 环境 中 接收 数据 并 根据 目标 调整 神经 网 络 的 权重 。 该 数据 称 为 训练 数据 ， 其 有 多 个 样本 。“ 训 练 ” 背 后 的 思想 在 于 调整 神经 网 络 权重 ， 就 像 在 神经 网 络 中 训练 它们 以 得 出 期 
望 响应 一 样 。 神 经 网 络 学 习 过 程 中 ， 在 监督 学 习 情 况 下 ， 目 标 输出 (Y) 和 神经 网 络 实际 输出 ( 站 之 间 存 在 一 个 误差 : 

e=Y-Y 

Gaz 一 些 关于 神经 网 络 的 文献 用 字母 了 表示 目 标 变 量 ，Y 表 示 神 经 网 络 的 输出 ， 而 本 书 中 用 Y 表 示 期 望 输出 ， 为 了 不 让 读者 迷惑 ， 此 处 依然 用 Y 了 表示 目标 输出 。 


考虑 到 训 | 练 集 有 很 多 条 数据 ， 且 每 条 记录 都 会 有 NN 个 误差 值 。 因 此 ， 如 何 得 到 总 体 误差 呢 ? 一 种 直观 的 方法 是 取 所 有 误差 的 平均 值 ， 但 这 是 一 种 误导 。 误 差 向 量 既 可 以 取 正 值 ， 也 可 以 取 负 值 ， 因 此 无 
论 误差 测量 值 多 大 ， 所 有 误差 的 平均 值 很 可 能 接近 0。 用 绝对 值 生成 平均 误差 似乎 是 一 种 更 明智 的 方法 ， 但 这 个 函数 在 原点 不 连续 ， 计 算 导 数 时 不 好 处 理 (如 图 2-5 所 示 ) 。 


aw 
Abs (x) 


图 2-5 总体 误差 


所 以 ， 利 用 误差 平方 和 的 均值 计算 总 体 误差 是 一 个 合理 的 选择 ， 即 所 谓 的 均 方 误差 (MSE) : 


MSE(Y,Y 


4. 
NĀ 


2.3.4 PARENN 


在 进一步 探讨 之 前 ， 需 要 弄 清 楚 一 件 事 。 神 经 网 络 是 一 个 多 输出 结构 ， 我 们 必须 处 理 多 输出 情况 ， 这 种 情况 将 用 误差 矩阵 代 蔡 误差 向 量 : 


) 一 一 一 = i l E E a 


IN} N] 


此 种 情况 下 ， 无 论 对 于 一 个 特定 输出 、 一 个 特定 记录 还 是 整个 数据 集 ， 可 能 都 需要 处 理 大 量 误差 。 为 了 便于 理解 ， 将 针对 特定 记录 的 误差 称 为 一 般 误差 (general error) ， 在 此 基础 上 ， 为 每 个 输出 误 
差 均 设置 一 个 标量 值 ， 进 而 得 到 一 般 输出 误差 。 同 时 ， 将 涉及 所 有 数据 的 误差 称 为 总 体 误差 。 


单 输出 网 络 的 一 般 误差 仅仅 是 期 望 目标 和 真实 输出 之 间 的 差 值 ， 但 在 多 输出 情况 下 ， 一般 误差 需要 由 每 个 输出 的 误差 组 成 。 正 如 我 们 所 见 ， 平 方 误差 是 一 种 归纳 误差 度量 的 合适 方法 ， 因 此 ,一 般 误 差 


可 以 用 每 个 输出 误差 的 平方 来 计算 : 
| a 


mis 
| 


至 于 总 体 误 差 ， 它 实际 上 考虑 的 是 数据 集中 所 有 记录 的 一 般 误 差 。 由 于 数据 集 很 大 ， 因 此 计算 总 体 误 差 时 最 好 先 计 算 一 般 误 差 的 平方 ， 再 计算 MsSE。 


2.3.5 ”神经 网 络 的 迭代 学 习 什么 时 候 停 止 比较 好 


随 着 学 习 过 程 的 执行 ， 神 经 网 络 的 结果 必须 越 来 越 接 近期 望 值 ， 直 到 | 最终 达到 可 接受 的 标准 或 者 迭代 次 数 的 限制 ， 我 们 称 之 为 训练 次 数 。 只 有 至 少 满足 其 中 一 个 条 件 ， 学 习 过 程 才 算 完成 。 
` 满意 度 标准 : 根据 学 习 模式 不 同 ， 可 以 是 最 小 总 体 误 差 或 者 最 小 权重 距离 。 


最 大 训练 次 数 。 


24 学 习 算 法 示例 


现在 ， 用 简单 的 例子 来 展示 已 探讨 的 学 习 算 法 。 本 章 将 主要 考虑 单 层 神经 网 络 ， 多 层 神 经 网 络 将 在 下 一 章 介绍 。 


在 Java 代 码 中 ， 创 建新 的 父 类 LearningAlgorithm ， 放 在 新 包 edu.packt.neural.learn 中 。 同 时 创建 新 包 edu.packt.neural.data， 主 要 用 于 存放 神经 网 络 处 理 数 据 集 的 代码 ， 即 类 NeurallnputData 和 
NeuralOutputData， 这 两 个 类 都 被 类 Neural-DataSet 引 用 。 为 了 节约 篇 幅 ， 建 议 读者 阅读 代码 文档 ， 以 便 了 解 这 些 类 是 如 何 组 织 的 。 


类 LearningAlgorithm 有 以 下 属性 和 方法 : 


public abstract class LearningAlgorithm { 
protected NeuralNet neuralNet; 
public enum LearningMode {ONLINE, BATCH}; 
protected enum LearningParadigm {SUPERVISED, UNSUPERVISED}; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
protected int MaxEpochs=100; 
protected int epoch=0; 
protected double MinOverallError=0.001; 


protected double LearningRate=0.1; 
protected NeuralDataSet trainingDataSet; 
protected NeuralDataSet testingDataSet; 
protected NeuralDataSet validatingDataSet; 
public boolean printTraining=false; 
public abstract void train() throws NeuralException; 

public abstract void forward() throws NeuralException; 

public abstract void forward(int i) throws NeuralException; 

public abstract Double calcNewWeight (int layer,int input,int neuron) throws NeuralException; 

public abstract Double calcNewWeight (int layer,int input, intneuron,double error) throws NeuralException; 

// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


对 象 neuralNet 是 神经 网 络 的 一 个 引用 ， 它 将 由 这 个 学 习 算 法 训练 。enum 定 义 了 学 习 模式 和 学 习 方式 。 定 义 训练 参数 (MaxEpochs, MinOverallError, LearningRate) 并 在 学 习 过 程 中 考虑 数据 


每 个 学 习 算 法 的 实现 类 都 应 该 覆盖 train () 方法 ， 所 有 训练 过 程 都 由 这 个 方法 完成 。forward () 方法 处 理 神经 网 络 的 所 有 输入 数据 ， 而 forward (int k) 方法 处 理 输入 数据 的 第 k 条 记录 。 最 
后 ，calcNewWeight () 方法 负责 更 新 输入 和 特定 层 的 神经 元 之 间 的 连接 权重 。calcNewWeight () 方法 允许 为 更 新 操作 提供 一 个 特定 的 参数 变量 error。 


24.1 SKLM 


该 算法 主要 根据 损失 函数 对 权重 进行 更 新 。 在 梯度 法 之 后 ， 人 们 想 知 道 哪些 权重 能 使 损失 函数 值 更 低 。 注 意 ， 我 们 可 以 通过 计算 损失 函数 在 每 个 权重 上 的 偏 导 数 来 找到 方向 。 为 了 便于 理解 ， 考 虑 简单 
的 方法 


只 有 一 个 神经 元 、 一 个 权重 以 及 一 个 偏 置 的 简单 情况 ， 输 出 如 下 : 


这 里 g 是 激活 函数 ，X 是 包含 x 值 的 向 量 ，Y 是 神经 网 络 生成 的 输出 向 量 。 第 k 个 样本 的 一 般 误差 很 简单 : 


k: 
p: 


. - = 


_ 


然而 ， 可 以 将 此 误差 定义 为 平方 误差 、N-degree 误 差 或 MSE。 但 是 ， 为 了 简单 起 见 ， 将 简单 误差 差 值 看 成 一 般 误 差 。 现 在 ,计算 总 体 误 差 〈 即 损失 函数 ) : 


OY, 


fy (二 


权重 和 偏 置 根据 8 规则 进行 更 新 ， 即 对 权重 w 和 偏 置 b 分 别 求 偏 导 数 ” 训 和" 六"， 对 于 批量 训练 方式 ，X 和 E 都 是 向 量 : 


ac( xX, yF] oo : 
Aw = @ 一 =aF Xg'(X e W+ b) 
Ow 
CIE ft i 


如 果 是 在 线 训练 方式 ， 不 需要 求 点 积 : 


ac( X, Y, f) 


Aw=ġ =ak, X, g'(x, 。 w+b) 


Ow | 


6C (X,Y,Y) 


Ab — eR g'(x, ° w+] 


24.2 学 习 率 


前 述 公 式 中 ，Qa 表 示 学 习 率 。 它 在 权重 更 新 中 起 着 重要 作用 ， 因 为 它 控制 到 达 最 小 损失 值 的 速度 。 我 们 看 看 只 有 两 个 权重 的 损失 函数 误差 曲面 ， 如 图 2-6 所 示 。 


2.4.3 ”实现 8 规则 


-2 


me: : 一 3 
把 权重 投射 到 一 维 平 面 上 


图 2-6 ”损失 函数 误差 曲面 和 权重 的 关系 


用 类 DeltaRule 实 现 5 规 则 ，DeltaRule 类 继承 自 LearningAlgorithm 类 : 


public class DeltaRule extends LearningAlgorithm { 


ublic 


ArrayList<ArrayList<Doub]l 


ublic 
ublic 


ArrayList<Double> general 
ArrayList<Double> overal] 


ublic 


double overallGeneralError; 


double degreeGeneral] 


Error=2.0; 


double degreeOveral] 


Error=0.0; 


enum ErrorMeasurement {SimpleError, SquareError, NDegreeError, MSE} 
ErrorMeasurement general 


zj 
1 | 
Q 


L 

E 
X 
O 
ip 


ErrorMeasurement overal] 


private int currentRecord=0; 


private ArrayList<ArrayList<ArrayList<Do 
// http://www.hzcourse.com/reso 


le>> error; 
Error; 
Error; 


ErrorMeas 


urement=ErrorMeasurement .Square- 


ErrorMeas 


urement=ErrorMeasurement .MSE; 


uble>>> newWeights; 


更 高 的 学 习 率 会 
导致 权重 空间 更 贤 
的 梯度 


urce/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


2.3.4 节 讨论 的 一 般 误 差 和 总 体 误差 都 在 DeltaRule 类 中 实现 了 ， 因 为 8 规则 学 习 算法 在 训练 期 间 会 考虑 这 些 误差 。 一 般 误差 和 总 体 误 差 都 是 数组 ， 因 为 每 个 数据 集 记 录 都 会 有 一 个 一 般 误 差 ， 每 个 输出 都 
会 有 一 个 总 体 误 差 。 属 性 overallGeneralError 接 受 损失 函数 结果 ， 即 所 有 输出 和 记录 的 总 体 误差 。 属 性 error 是 个 误差 矩阵 ， 人 存储 每 个 输出 记录 组 合 的 误差 。 


这 个 类 里 计算 一 般 误差 和 总 体 误 差 的 方法 有 多 种 。 属 性 generalErrorMeasurement 和 overallErrorMeasurement 可 以 用 一 个 输入 值 进 行 简单 误差 、 平 方 误差 、N-degree 误 差 (三 次 、 四 次 等 ) 或 者 
MSE 的 计算 。 一 般 误 差 的 默认 值 是 简单 误差 ， 总 体 误差 的 默认 值 是 MSE。 


这 段 代 码 里 有 两 个 重要 的 属性 值得 注意 : currentRecord 是 指 在 训练 过 程 中 输入 神经 网 络 的 记录 的 索引 ，newWeights 的 三 维和 矩阵 是 所 有 新 权 值 的 集合 ， 用 于 在 神经 网 络 中 更 新 权重 。currentRecord 属 
性 在 在 线 训练 中 很 有 用 ，newWeights 和 矩阵 可 以 帮助 神经 网 络 保存 所 有 原始 权重 ， 直 到 所 有 新 权重 计算 完成 ， 这 将 能 防止 在 前 向 处 理 阶段 更 新 权重 ， 人 否则 会 极 大 降低 训练 质量 。 


244 ”5 规则 学 习 的 核心 一 一 train 和 calcNewWeight 方 法 


为 节约 篇 幅 ， 这 里 不 详细 介绍 forward () 方法 的 实现 。 如 前 所 述 ，forward 意 味 着 神经 数据 集 记录 应 该 输入 神经 网 络 ， 然 后 计算 误差 : 


QOverride 
public void train() throws Neurall 


// http://www.hzcourse.com/reso 


switch (learningMode) { 


Case 


Exception { 
urce/readBook?path=/openresources/teach_ebook/uncompressed/17665/0E 


BPS/Text/... 


BATCH: // this is the batch training mode 


epoch=0; 
forward(); // all data are presented to the neural network 
while (epoch<MaxEpochs &&overallGeneralError>MinOverallError) { 
// continue condition 
epoch++; // new epoch 
for(int j3=0;j<neuralNet.getNumberOfOutputs () ;3++) { 
for(int i=0;i<=neuralNet.getNumberOfInputs () ;i++) { 
// here the new weights are calculated 
newWeights.get (0) .get (j) .set (1, calcNewWeight (0,1,3)); 
} 


// only after all weights are calculated, they are applied 
applyNewWeights () ; 

// the errors are updated with the new weights 

forward (); 


} 
break; 
case ONLINE:// this is the online training 
epoch=0; 
int k=0; 
currentRecord=0; // this attribute is used in weight update 
forward (k); // only the k-th record is presented 
while (epoch<MaxEpochs && overallGeneralError>MinOverallError) { 
for(int j3=0;j<neuralNet.getNumberOfOutputs () ;3++) { 
for(int i=0;i<=neuralNet.getNumberOfInputs () ;i++) { 
newWeights.get (0) .get (J) .set (1, calcNewWeight (0,1,3)); 
} 
} 
// the new weights will be considered for the next record 
applyNewWeights () ; 
currentRecord=++k; 
if (k>=trainingDataSet.numberOfRecords) { 


k=0; // if it was the last record, again the first 
currentRecord=0; 
epoch++; // epoch completes after presenting all records 
} 
forward (k); // presenting the next record 
break; 


train () HAH, ATHRIE 
AT, il 


东 需 满足 一 个 条 件 。 这 意味 着 当 条 件 不 满足 时 训练 将 会 停止 。 这 个 条 件 主 要 检查 epoch 数 (ATURE) 和 总 体 误 差 。 当 epoch 达 到 最 大 值 或 者 总 体 误差 达到 最 小 值 
练 完成 。 然 而 ， 在 某 些 情况 下 ， 和 总体 误 差 无 法 满足 最 低 要 求 ， 神 经 需要 停止 训 | 经 


JNO 


新 权重 使 用 calcNewWeight () 方法 计算 : 


@Override 
public Double calcNewWeight (int layer,int input,int neuron) throws Neural- 
Exception { 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/. . 
Double deltaWeight=LearningRate; 
Neuron currNeuron=neuralNet.getOutputLayer () .getNeuron (neuron) ; 
switch (learningMode) { 
case BATCH: // Batch mode 
ArrayList<Double> derivativeResult=currNeuron.derivativeBatch (training-— 
DataSet.getArrayInputData ()); 
ArrayList<Double> ithInput; 
if (input<currNeuron.getNumberOfInputs()){ // weights 
_ithInput=trainingDataSet.getIthInputArrayList (input) ; 
}else{ // bias 
_ithInput=new ArrayList<>(); 
for(int i=0;i<trainingDataSet.numberOfRecords; i++) { 
_ithInput.add(1.0); 


工 


} 
} 
Double multDerivResultIthInput=0.0; // dot product 
for(int i=0;i<trainingDataSet .numberOfRecords; i++) { 
multDerivResultIthInputt+=error.get (i) .get (neuron) * 
derivativeResult.get(i)* ithInput.get (i); 


deltaWeight*=multDerivResultIthInput; 


case ONLINE: 
deltaWeight*=error.get (currentRecord) .get (neuron) ; 
deltaWeight*=currNeuron. derivative (neuralNet.getInputs ()); 

if (input<currNeuron.getNumberOfInputs () ) { 
deltaWeight*=neuralNet.getInput (input) ; 


} 


break; 


return currNeuron.getWeight (input) +deltaWeight; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


T 


主意 ， 在 权重 更 新 中 ， 会 调用 给 定神 经 元 激活 函数 的 导数 。 这 需要 满足 8 规则 。 在 激活 函数 接口 中 ， 提 供 了 导数 方法 derivative () ， 每 个 实现 类 都 将 覆盖 这 个 方法 。 
PER ”在 批量 方式 中 ， 调 用 detivativeBatch () ， 它 接收 和 返回 的 都 是 数组 ， 而 非 单 个 标量 。 


在 train () 方法 中 ， 我 们 看 到 新 权重 存储 在 newWeights 属 性 中 ， 因 此 不 会 影响 当前 学 习 过 程 


2.4.5“” 另 一 种 学 习 算法 一 Hebbian 学 习 


20 世 纪 40 年 代 ， 神 经 心理 学 家 Donald Hebb 假 设 同 时 活跃 或 兴奋 的 神经 元 之 间 的 连接 将 更 强 ， 或 者 用 他 的 话说 ， 神 经 元 之 间 经 过 反复 多 次 的 刺激 ， 连 接应 该 是 增强 的 。 这 是 无 监督 学 习 的 一 种 方法 ， 
为 没有 指定 目标 输出 ( 见 图 2-7) 。 


LAN i HJA i 
EPAR 


图 2-7 Hebbian 4 


总 的 来 说 ，Hebbian 学 习 的 权重 更 新 规则 只 考虑 神经 元 的 输入 和 输出 。 假 设 要 更 新 神经 元 和 神经 元 i 之 间 的 连接 (权重 j) ， 更 新 公式 如 下 : 


==. 


oj 都 是 向 量 ，0joj 表 示 做 点 积 运 算 。 


这 里 ，co 是 学 习 率 ，o 媚 神经 雹 的 输出 ，o 讶 神经 元 的 输出 ，o 也 是 神经 元 j 的 输入 i。 


NZ 


给 定 N 个 记录 ， 计 算 神经 网 络 产 生 的 所 有 输出 的 期 望 或 均值 。 当 这 个 值 的 增加 超过 立 值 


亭 止 条 


因为 Hebbian 学 习 不 包含 误差 度量 ， 
时 ， 即 停 避免 神经 输出 骨 溃 。 


水 /人 总 


人 由 


开发 Hebbian 的 一 个 新 类 ， 它 也 继承 自 LearningAlgorithm: 


public class Hebbian extends LearningAlgorithm { 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
private ArrayList<ArrayList<ArrayList<Double>>> newWeights; 
private ArrayList<Double> currentOutputMean; 
private ArrayList<Double> lastOutputMean; 


除了 缺少 误差 度量 和 新 增 了 新 的 均值 度量 之 外 ， 所 有 参数 都 和 DeltaRule 类 相同 。 除 了 calcNewWeight () 方法 ， 方 法 也 很 相似 : 


@Override 
public Double calcNewWeight (int layer,int input,int neuron) throws Neural- 
Exception { 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
Double deltaWeight=LearningRate; 
Neuron currNeuron=neuralNet.getOutputLayer () .getNeuron (neuron) ; 
switch (learningMode) { 
case BATCH: 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
// the batch case is analogous to the implementation in Delta Rule 
// but with the neuron's output instead of the error 
// we're suppressing here to save space 
break; 
case ONLINE: 
deltaWeight*=currNeuron.getOutput () ; 
if (input<currNeuron.getNumberOfInputs () ) { 
deltaWeight*=neuralNet.getInput (input) ; 
} 
break; 


} 


return currNeuron.getWeight (input) +deltaWeight; 


24.6 学习 机 


学 习 机 是 自 适应 线性 神经 元 体系 结构 的 代表 ， 由 Bernard Widrow 和 Ted Hoff 基 于 McCulloch 和 Pitts 神 经 元 开发 。 它 只 有 一 层 神 经 元 ， 与 6 规则 的 训练 方式 相似 。 主 要 区 别 在 于 ， 学 习 机 的 权重 更 新 规 
则 是 由 输入 加 权 和 乘 以 偏 置 与 目标 输出 之 间 的 误差 决定 的 ， 而 不 是 基于 激活 函数 后 神经 元 的 输出 来 更 新 。 当 人 们 想 对 分 类 问题 进行 持续 学 习 时 ， 这 种 方式 是 可 取 的 ， 因 为 分 类 问题 倾向 于 使 用 离散 数据 而 非 
连续 数据 。 


学 习 机 的 学 习 过 程 如 图 2-8 所 示 。 


权重 更 新 误差 


在 有 限 图 像 范 
内 用 于 Mat J 
的 非 线性 激活 图 数 


图 2-8 学习 机 的 学 习 过 程 


所 以 权重 更 新 公式 如 下 : 


为 了 实现 学 习 机 ， 创 建 一 个 类 Adaline， 覆 六 calczNewWeight () 。 为 了 节约 篇 幅 ， 这 里 仪 展示 在 线 情 况 : 


@Override 
public Double calcNewWeight (int layer,int input,int neuron) throws Neural- 
Exception { 
// http://www. hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/Text/... 
Double deltaWeight=LearningRate; 7 
Neuron currNeuron=neuralNet.getOutputLayer () .getNeuron (neuron) ; 
switch (learningMode) { 


case BATCH: 

// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
break; 

case ONLINE: 


deltaWeight*=error.get (currentRecord) .get (neuron) 
*currNeuron.getOutputBeforeActivation () ; 

if (input<currNeuron.getNumberOfInputs () ) { 
deltaWeight*=neuralNet.getInput (input) ; 

} 


break; 


return currNeuron.getWeight (input) +deltaWeight; 


} 


注意 方法 getOutputBeforeActivation () ， 第 1 章 提 到 过 ， 这 个 特性 将 来 会 很 有 用 。 


2.5 ”在 实践 中 理解 学 习 过 程 


举 一 个 非常 简单 的 例子 。 假 设 你 想 要 单个 神经 元 构成 的 神经 网 络 来 学 习 如 何 拟 合 一 个 简单 的 线性 函数 ， 见 图 2-9。 


图 2-9 ”神经 网 络 拟 合 线性 函数 


即使 对 于 几乎 无 数学 背景 的 人 来 说 ， 这 也 是 相当 容易 的 ， 所 以 对 于 用 最 简单 的 神经 网 络 证 明 它 的 学 习 能 力 来 说 ， 这 是 一 个 很 好 的 开始 。 


神经 网 络 训 


练 一 一 训 | 


练 数据 集 
如 下 代码 为 神经 网 络 学 习 构 造 数据 集 ， 可 以 在 NeuralNetDeltaRuleTest 文 件 的 main 方 法 中 看 到 : 


Double[][] _neuralDataSet = { 
{1.2 , fncTest(1.2)}, 
{0.3 , fncTest (0.3)}, 
{-0.5 , fncTest (-0.5 
{-2.3 , fncTest (-2.3 
{1.7 , fncTest (1.7) 
{- 
{- 
t[ 


} 
0.1 , fncTest (-0.1)}, 
2.7 , fncTest(-2.7)} }; 
int[] inputColumns = {0}; 
int[] outputColumns = {1}; 


NeuralDataSet neuralDataSet = new 
NeuralDataSet ( neuralDataSet, inputColumns, outputColumns) ; 


Byte LAN funcTestRyayAyce S40 FB: 


public static double fncTest (double x) { 
return 0.11*x; 


} 


注意 ， 使 用 类 NeuralDataset 的 方式 构造 所 有 数据 ， 这 些 数 据 将 以 正确 的 方式 输入 到 神经 网 络 中 。 现 在 把 这 个 数据 集 链 接 到 神经 网 络 中 。 记 住 ， 这 个 网 络 在 输出 层 只 有 一 个 单独 的 神经 元 。 使 用 一 个 非 
线性 激活 函数 ， 比 如 系数 为 0.85 的 双 曲 正切 函数 : 


int numberOfInputs=1; 

int numberOfOutputs=1; 

HyperTan htAcFnc = new HyperTan (0.85); 

NeuralNet nn = new NeuralNet (numberOfInputs, numberOfOutputs, htAcEnc) ; 


Chet 


现在 实例 化 DeltaRule 对 象 ， 并 将 其 链接 到 创建 的 神经 网 络 。 然 后 设置 学 习 参数 ， 如 学 习 率 、 最 小 总 体 误差 以 及 最 大 训练 次 数 : 


DeltaRule deltaRule=new DeltaRule (nn,neuralDataSet.LearningAlgorithm. Learning- 
Mode . ONLINE) ; 
deltaRule.printTraining=true; 
deltaRule.setLearningRate (0.3); 
deltaRule.setMaxEpochs (1000) ; 
deltaRule.setMinOverallError (0.00001) ; 


在 调用 了 对 象 deltaRule 的 方法 forward () 之 后 ， 碍 看 未 经 训练 的 神经 网 络 的 第 一 个 神经 输出 : 


deltaRule. forward () ， 
neuralDataSet.printNeuralOutput () ; 


Getting the first output of the neural network 


al Output (0) ={ 
Output (1)={ 
Output (2) ={ 
Output (3) ={ 
Output (4) ={ 
Output (5)={ 
Output [6 ] 


0.44224768996697406} 
0.19297592401999314} 
-0.053052819745845956} 
-~0.5457392112113837} 
0.$582946870603158} 
0.07104196712543694} 
-0.6270608140997245} 


图 2-10 神经 网 络 的 输出 与 目标 输出 


接 下 来 ， 开 始 在 在 线 方式 下 训练 神经 网 络 。 设 置 printTraining 为 true， 作 用 是 将 训练 过 程 实 时 更 新 到 屏幕 ， 如 下 代码 将 生成 后 面 的 截图 : 


training"); 


yste 
deltaRule.train(); 

yste i ln ("E g")F 

if (de Min () >=del ule.getOver 
Sys tin cesful!"); 

} elsef 

yste In("T suc yale): 
} 


2.6 


Beginning training 
Record=0; 
Record=1; 
Record=¢ ; 
Record=#3; 

Epoch=0; Record=4; 

Epoch=0; Record=5; 

Epoch=0; Record=6; 

Epoch=1; Record=0; 


Overall 
Overall 
Overall 
Overall 


Overall 
Overall 
Overall 
Overall 


训练 开始 ， 总 体 误差 信息 都 随 着 更 新 。 注 意 ， 误 差 在 减 小 : 
Epoch=4; Record=4; 
Epoch=4; Record=5S; 
Epoch=4; Record=6; 
Epoche#5; Record=#0; 
End of training 
Training succesful! 


每 个 权重 更 新 后 ， 


Error=0.06586810467152877 
Error=0 .0642007959986327 

Error=0 .06427692265805368 
Error=0.06102840935680022 
Error=0.04880202611839414 
Error=0.04823124833461199 
Error=0.03368528328163059 
Error=0 .021528920861072397 


Overall Errore1.8051182S8834097E-5 
Overall Error=1 .607082227117628SE-5S 
Overall Error=1.3418163790928809E-5 
Overall Errore8 .3440S0623786828E-6 


Overall Error:8.3440S0623786828E-6 


in Overall Error:1.0E-5 


五 次 迭代 后 ， 误 差 达 到 最 小 值 。 神 经 输出 的 坐标 图 如 图 2-11 所 示 。 


0.13572519792474516} 
0.03448715923S605829} 
-0.05616629902513205} 
-0.254631922880871} 
0.19090081884413404} 
-0.010861888406637488} 
-~0.29654101894096135} 


eural Output [0]=({ 
eural Output (i) ={ 
eural Output [2]=({ 
eural Output (3) ={ 
eural Output (4)={ 
eural Output (5)={ 
eural Output [6]={ 


一 4 一 Taf8elt 


一 Neurdl 


图 2-11 神经 输出 及 坐标 图 


很 神奇 ， 不 是 吗 ” 神 经 输出 和 目标 输出 实际 上 是 一 样 的 ， 查 看 最 终 的 Weight 和 bias: 


os = nn.getOutputLayer ().getWeight(0, 0); 
bias = a sa tputL ayer ().getWeight(1, 0); 
stem.out.print T Weight found:"+Stri val 
"Bi ou : 7 


Syste t.print 
/7 ight “fou arr 0. 266842 1011698528 
// B und:0.0011258204676042108 


测试 


我 们 可 能 会 问 ， 神 经 网 络 已 经 从 数据 中 学 会 了 吗 ? 如 何 证 明 它 已 经 有 效 地 学 习 了 ? 就 像 学 生 需 要 经 历 考试 一 样 ， 我 们 需要 在 训练 之 后 检验 神经 网 络 的 反应 。 但 是 等 等 ! 你 认为 老师 会 把 他 在 课堂 上 讲 过 
的 习题 原封 不 动 地 放 在 考卷 上 吗 ? 使 用 已 知 答案 的 问题 评估 学 生 的 学 习 能 力 是 没 意 义 的 ， 此 时 老师 只 能 得 出 这 个 学 生 只 是 背诵 了 内 容 而 没有 真正 学 会 的 结论 。 


现在 解释 这 部 分 内 容 。 这 里 讨论 的 是 测试 。 前 面 讨 论 的 学 习 过 程 叫 训练 。 在 神经 网 络 训练 结束 后 ， 应 该 测试 它 是 否 真 的 学 会 了 。 为 此 ， 必 须 提供 给 神经 网 络 来 自 相 同学 习 环境 的 另 一 部 分 数据 。 这 是 必 
要 的 ， 就 像 学 生 一 样 ， 神 经 网 络 只 能 对 它 训 练 过 的 数据 产生 适当 的 反应 ， 这 叫 过 度 训练 。 为 了 检查 神经 网 络 是 否 过 度 训 练 ， 必 须 检查 神经 网 络 对 他 训练 数据 范围 之 外 其 他 数据 的 响应 。 


图 2-12 说 明了 过 度 训练 问题 。 假 设 网 络 近 似 于 某 个 函数 f (x) ， 其 定义 未 知 。 在 神经 网 络 中 输入 该 函数 的 一 些 数据 ， 生 成 的 结果 如 图 2-12a 所 示 。 但 是 ， 当 扩展 到 更 宽 的 区 域 (如 添加 一 个 测试 数据 
时 ,神经 网 络 却 没有 遵循 数据 本 身 的 规律 进行 响应 ， 如 图 2-12b 所 示 。 


六 


这 种 情况 下 ， 神 经 网 络 没 有 学 习 到 整个 环境 (函数 f (x) ) 。 这 是 由 以 下 几 个 原因 造成 的 。 
* 神经 网 络 没 有 接收 到 足够 的 信息 。 
* 环境 中 的 数据 具有 不 确定 性 。 


o 训练 数据 和 测试 数据 定义 不 佳 。 


FRA MAA ARE ESTES I, “Rit” Wi. 


o 由 fr) 生成 的 数据 点 


一 在 转 入 x 时 由 神经 网 络 
产生 的 数据 


AGO 


图 2-12 过度 训练 示例 


本 书 将 讨论 训练 过 程 中 如 何 避 免 出 现 过 度 训练 等 问题 。 


过 度 拟 合 和 过 度 训 练 


前 面 的 示例 中 ， 神 经 网 络 似乎 学 习 得 很 好 。 然 而 ， 存 在 过 度 拟 合 和 过 度 训练 的 风险 。 这 两 个 概念 之 间 的 差别 很 微妙 。 当 神经 网 络 记 住 了 问题 的 所 有 行为 时 ， 就 会 发 生 过 度 拟 合 ， 因 此 它 只 能 在 训练 数据 
上 表现 良好 ， 从 而 失去 泛 化 能 力 。 而 过 度 训 练 是 过 度 拟 合 的 原因 。 当 训练 误差 比 测试 误差 小 得 多 时 ， 或 者 随 着 神经 网 络 持续 (过 度 ) 训练， 测试 误差 开始 增加 时 ， 即 开始 产生 过 度 训 练 。 如 图 2-13 所 示 。 
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图 2-13 过度 训练 


避免 过 度 训练 和 过 度 拟 合 的 方法 ， 是 在 训练 进行 时 检查 测试 误差 。 当 测试 误差 开始 增加 时 ， 停 止 训练 。 第 3 章 将 详细 介绍 这 些 内 容 。 
现在 查看 该 例子 是 否 有 这 种 情况 。 添 加 更 多 的 数据 进行 测试 : 


如 图 2-14 所 示 ， 该 神经 网 络 具 有 泛 化 能 力 。 尽 管 该 例子 很 简单 ， 但 是 仍然 可 以 看 到 神经 网 络 的 学 习 能 力 。 


Double[][] _testDataSet ={ 
1.7 , fneTest(-1.7)}, 
{-1.0 , fncTest (-1.0) 
{0.0 , fncTest (0.0) } 
{0.8 , fncTest (0.8) }, 
{2.0 , fncTest (2.0) } 


~ ew 
~ 


NeuralDataSet testDataSet = new NeuralDataSet ( testDataset, 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 
deltaRule.setTestingDataSet (testDataSet) ; 

deltaRule.test (); 
testDataSet.printNeuralOutput () ; 


pem 


Weight found:0.2668421011698528 
Bias found:0.0011258204676042108 
Neural: 


Neural Output(0)={ -0.18997857740259588} —s— Target Train 
Neural Outpur({ij)={ -0.11245179065557878} s -加 -= Neural Train 
Neural Output[2]={ 4.784736622183342E-4} Target Test 
Neural Output (3]={ 0.09095273671742062} | Neural Test 
Neural Output(4]={ 0.22345928013217864} 


图 2-14 神经 网 络 泛 化 能 力 


2.7 本章 小 结 


本 章 介 绍 了 神经 网 络 的 整个 学 习 过 程 。 主 要 展示 了 受 人 类 自学 习 启 发 的 基础 的 机 器 学 习 。 为 了 在 实践 中 演示 这 一 过 程 ， 我 们 用 Java 实 现 了 两 种 学 习 算 法 ， 并 应 用 到 两 个 示例 中 。 这 样 读 者 对 于 神经 网 络 
如 何 学 习 ， 以 及 如 何 系 统 地 描述 学 习 过 程 ， 都 有 一 个 基本 但 有 用 的 理解 。 这 是 第 3 章 的 基础 ， 第 3 章 将 会 介绍 更 复杂 的 示例 。 


第 3 草 ”感知 机 和 监督 学 习 


本 章 将 探讨 监督 学 习 的 更 多 细节 ， 监 督学 习 在 寻找 两 个 数据 集 之 间 的 关系 上 非常 有 用 。 我 们 将 引入 一 种 非常 流行 的 神经 网 络 结构 一 一 感知 机 来 实现 监督 学 习 。 本 章 还 介绍 感知 机 的 广义 扩展 版 本 ， 即 所 
谓 的 多 层 感 知 机 以 及 它们 的 特点 、 学 习 算法 和 参数 。 此 外 ， 读 者 还 将 学 习 如 何 用 Java 实 现 它 们 以 及 如 何 用 它们 来 解决 一 些 基 本 的 问题 。 本 章 将 讨论 以 下 主题 : 


- 监督 学 习 


“ 回归 任务 


. 线性 可 分 


ARE: 异 或 问题 


.多 层 感 知 机 

:广义 的 5 规则 反 向 传播 算法 
- Levenberg-Marquardt 算 法 

- 单 隐 含 层 神 经 网 络 

` 极限 学 习 机 


3.1 监督 学 习 一 一 训 


练 神经 网 络 


第 2 章 介绍 了 应 用 于 神经 网 络 的 学 习 模 式 : 其 中 ， 监 督学 习 意 味 着 需 有 一 个 要 明确 达到 的 目标 。 在 实践 中 ， 给 出 一 组 输入 数据 X 和 一 组 预期 的 输出 数据 YT， 然 后 计算 损失 函数 的 值 ， 它 的 目标 是 减 小 神经 
输出 Y 和 预期 输出 YT 之 间 的 误差 。 


在 监督 学 习 中 ， 任 务 主要 分 为 两 种 : 分 类 和 回归 。 


3.1.1 分 类 一 一 寻找 合适 的 类 别 


神经 网 络 也 可 以 处 理 分 类 数据 。 给 定 一 组 类 别 和 一 个 数据 集 ， 我 们 希望 能 根据 历史 数据 集 ， 对 其 进行 分 类 。 表 3-1 是 该 数据 集 的 例子 ， 其 中 科目 平均 分 都 在 0 ~ 10 之 间 。 
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一 个 例子 是 根据 学 习 成 绩 预测 职业 。 想 象 一 下 有 一 个 关于 在 职 毕业 生 的 数据 集 ， 包 含 学 生 在 校 时 每 个 科目 的 平均 分 及 其 现在 的 职业 。 注 意 ， 输 出 是 职业 的 名 称 ， 而 神经 网 络 无 法 直接 输出 名 称 。 为 了 解 
决 这 个 问题 ， 用 一 列 (一 个 输出 ) 来 代表 一 个 已 知 的 职业 。 当 某 个 学 生 选 择 了 某 个 职业 时 ， 这 个 职业 对 应 列 的 值 为 1， 否 则 值 为 0， 如 图 3-1 所 示 。 
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图 3-1 人 毕业 生 数 据 


现在 想 要 找到 一 个 基于 神经 网 络 的 模型 ， 根 据 学 生 分 数 ， 来 预测 他 /她 更 有 可 能 选择 哪个 职业 。 为 此 ， 构 造 了 一 个 神经 网 络 ， 以 科目 数量 为 输入 ， 已 知 职业 的 数量 作为 输出 ， 隐 含 层 有 任意 数量 的 神经 
元 ， 如 图 3-2 所 示 。 
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图 3-2 ”神经 网 络 模型 


对 于 分 类 问题 ， 一 条 输入 通常 只 属于 一 个 类 别 ， 所 以 输出 层 只 会 产生 0 或 者 1。 最 好 使 用 输出 值 在 0 ~ 1 之 间 的 激活 函数 。 但 是 我 们 必须 考虑 多 个 神经 元 被 激活 ， 如 一 条 输入 产生 两 个 分 类 的 情况 。 有 很 多 
的 机 制 可 以 避免 这 个 问题 ， 比 如 softmax 函 数 或 者 winner-takes-all 算 法 。 这 些 机 制 将 在 第 6 章 的 实际 应 用 中 进行 详解 。 


经 过 训练 后 ， 神 经 网 络 学 会 了 根据 一 个 学 生 的 给 定 成 绩 ， 来 判断 他 /她 最 可 能 从 事 的 职业 。 


3.1.2 ”回归 一 一 将 实际 输入 映射 到 得 出 


回归 在 于 找到 一 些 国 数 ， 将 一 组 输入 映射 到 一 组 输出 。 表 3-2 展 示 了 一 个 含有 k 条 输入 记录 的 数据 集 ， 每 条 记录 都 含有 指标 X 的 m 个 独立 特征 ， 对 应 了 n 种 依赖 输出 。 
表 3-2 输入 与 输出 的 映射 表 
独立 输入 数据 独立 输出 数据 
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表 3-2 的 数据 用 和 矩阵 格式 表示 如 下 : 
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与 分 类 不 同 ， 这 里 的 输出 值 不 是 分 类 或 者 标签 ， 而 是 数值 。 相 同 的 是 ， 也 有 一 个 历史 行为 数据 集 ， 我 们 希望 神经 网 络 从 中 学 习 。 回 归 的 一 个 例子 是 预测 两 个 城市 之 间 的 公共 汽车 票 价 。 在 这 个 例子 中 ， 
我 们 收集 了 城市 列表 和 从 一 个 城市 到 另 一 个 城市 的 当前 票 价 ， 见 表 3-3。 我 们 以 城市 的 特征 ， 以 及 它们 之 间 的 距离 、 耗 时 作为 输入 ， 公 共 汽 车 的 票 价 作为 输出 ， 路 线 图 如 图 3-3 所 示 。 


表 3-3 城市 间 票 价 数据 集 
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图 3-3 ”公共 汽车 路 线 图 


构造 好 数据 集 之 后 ， 定 义 一 个 含有 确切 特征 数量 ( 乘 2， 因 为 提供 的 是 两 个 城市 的 特征 ) 的 神经 网 络 ， 包 含 输入 的 路 径 特征 ， 一 个 输出 ， 以 及 隐 含 层 中 任意 数量 的 神经 元 。 在 表 3-3 中 ， 有 9 个 输入 特 
征 。 因 为 输出 是 数值 ， 所 以 不 需要 进行 输出 数据 转换 。 


神经 网 络 将 会 对 两 个 没有 公共 汽车 服务 的 城市 之 间 的 线路 进行 车 票 价 格 预 估 。 


3.2 一 个 基本 的 神经 结构 一 一 感知 机 


感知 机 是 最 简单 的 神经 网 络 结构 ， 由 Frank Rosenblat 于 1957 年 发 明 。 它 只 有 一 层 神 经 元 ， 接 收 一 组 输入 ， 产 生 另 一 组 输出 。 这 是 第 一 个 引起 大 家 关注 的 神经 网 络 ， 尤 其 因为 它 的 简单 性 ， 如 图 3-4 所 


图 3-4 ”感知 机 


在 Java 实 现 中 ， 这 是 一 个 神经 层 (输出 层 ) 。 以 下 代码 创建 了 一 个 有 3 个 输入 和 两 个 输出 的 感知 机 ， 在 输出 层 拥有 线性 函数 : 


int numberOfInputs=3; 

int numberOfOutputs=2; 

Linear outputAcFnc = new Linear (1.0); 
NeuralNet perceptron = new NeuralNet (numberOfInputs,numberOfOutputs, 


outputAcFnc) ; 


3.2.1 ”应 用 和 限制 


然而 ， 科 学 家 们 很 快 就 得 出 结论 : 由 于 它 的 简单 性 ， 感 知 机 神经 网 络 只 能 用 于 简单 的 任务 。 那 时 ， 神 经 网 络 能 够 用 于 处 理 简 单 的 分 类 问题 ， 但 是 一 旦 面 对 更 复杂 的 数据 集 ， 感 知 机 通常 会 失败 。 通 过 一 


个 非常 基础 的 示例 (一 个 “与 ”函数 ) ， 来 更 好 地 理解 这 个 问题 。 


3.2.2 线性 可 分 


示例 包含 一 个 “与 ”水 数 ， 它 有 两 个 输入 xX1 和 x2。 这 个 方法 在 二 维 空 间 的 示意 图 如 图 3-5 所 示 。 
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图 3-5 “与 ”函数 在 二 维 空间 中 的 表示 
现在 ， 看 看 神经 网 络 是 如 何 使 用 感知 机 规则 来 进行 训练 的 ， 考 虑 到 两 个 权重 w1 和 w2， 初 始 化 为 0.5， 偏 置 也 定 为 0.5。 假 定 学 习 率 n 等 于 0.2， 训 练 过 程 中 的 参数 变化 见 表 3-4。 


表 3-4 训练 过 程 中 的 参数 变化 
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在 89 次 迭代 之 后 ， 我 们 发 现 神经 网 络 的 输出 值 接近 期 望 输出 值 。 在 本 例 中 ， 输 出 是 二 进 制 的 〈0 或 1) ， 所 以 可 以 假设 ， 网 络 所 产生 的 任何 小 于 0.5 的 值 都 被 视 为 0， 任 何 大 于 0.5 的 值 都 被 视 为 1]。 所 以 可 
以 据 此 男 出 一 个 函数 Y=x1W1+Xx2W2+b=0.5， 学 习 算法 输出 的 最 终 的 权重 和 偏 置 : w1=0.562，w2=0.5 和 b=-0.375。 线 性 边界 如 图 3-6 所 示 。 
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图 3-6 ”线性 边界 图 


这 个 边界 定义 了 网 络 给 出 的 所 有 分 类 。 可 以 看 出 这 个 边界 是 线性 的 ， 考 虑 到 函数 也 同样 是 线性 的 ， 因 此 ， 感 知 机 网 络 适 合 线性 可 分 问题 。 


现在 分 析 “ 异 或 ”问题 ，“ 异 或 ”函数 的 二 维 图 如 图 3-7 所 示 。 
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图 3-7 SZA Pay WHR” HK 


我 们 可 以 看 到 ， 在 二 维 空间 中 不 可 能 用 一 条 线 来 分 开 这 两 种 类 型 。 当 我 们 试图 训练 一 个 单 层 感知 机 来 学 习 这 个 函数 时 ， 会 发 生 什 么 ? 实验 结果 见 表 3-5。 
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感知 机 无 法 找到 一 对 权重 ， 能 够 将 误差 降低 到 0.625 以 下 。 这 个 可 以 从 数学 角度 来 解释 ， 因 为 从 图 3-7 中 已 经 可 以 看 出 这 个 函数 在 二 维 空间 中 是 线性 不 可 分 的 。 那 么 如 果 再 添加 一 个 维度 呢 ?” 三维 空间 中 
的 “ 异 或 ”函数 如 图 3-8 所 示 。 
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图 3-8 ”三维 空间 中 的 “ 异 或 ”函数 


在 三 维 空间 中 ， 可 以 画 一 个 平面 来 分 开 这 两 种 类 型 ， 前 提 是 追加 这 个 维度 后 ， 输 入 数据 能 够 合理 地 转换 成 三 维 。 现 在 又 有 一 个 新 的 问题 : 只 有 两 个 输入 变量 ， 如 何 获得 这 个 追加 的 维度 呢 ? 一 个 显 而 易 
见 的 解决 方案 是 ， 新 增 第 三 个 变量 ， 这 个 变量 从 两 个 原始 变量 推导 而 来 。 为 了 推导 第 三 个 变量 a， 神 经 网 络 可 能 会 变 成 如 图 3-9 所 示 的 形状 。 


用 来 增加 维度 
的 神经 元 


图 3-9 ”加 入 第 三 维度 的 感知 机 


现在 感知 机 有 三 个 输入 ， 其 中 一 个 是 其 余 两 个 的 组 合 。 这 也 会 引出 一 个 新 的 问题 : 该 如 何 处 理 这 个 组 合 ? 可 以 看 出 ， 这 个 组 合 的 工作 方式 像 一 个 神经 元 ， 于 是 神经 网 络 变 成 了 一 个 说 套 结构 。 如 果 这 
样 ， 又 会 有 一 个 新 的 问题 : 既然 误差 是 在 输出 神经 元 上 ， 那 么 这 个 新 神经 元 的 权重 是 如 何 训练 的 ? 


3.3 ”多 层 感 知 机 


可 以 看 到 ， 一 个 简单 的 线性 不 可 分 的 例子 ， 导 致 我 们 在 使 用 感知 机 结构 时 遇 到 越 来 越 多 的 问题 。 因 此 出 现 了 多 层 感知 机 。 在 第 1 章 中 ， 我 们 知道 了 自然 神经 网 络 也 是 分 层 结构 的 ， 每 一 层 都 从 一 个 特定 的 
环境 中 捕获 一 些 信息 。 在 人 工 神经 网 络 中 ， 神 经 层 也 是 以 这 种 方式 运作 的 : 从 数据 中 提取 和 抽象 信息 ， 将 它们 转换 成 男 一 个 维度 或 形状 。 


在 “ 异 或 ”问题 的 例子 中 ， 我 们 发 现 解决 方法 是 加 入 第 三 个 神经 元 能 使 其 线性 可 分 。 但 是 天 于 第 三 个 神经 元 如 何 计算 ， 这 里 仍然 有 一 些 问 题 。 现 在 考虑 一 个 两 层 感知 机 的 解决 方案 ， 如 图 3-10 所 示 。 
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图 3-10 ”两 层 感知 机 


现在 有 了 三 个 神经 元 而 不 是 一 个 ， 但 是 在 输出 中 ， 把 前 一 层 传 输 的 信息 转换 成 另 一 个 维度 或 形状 ， 从 理论 上 讲 ， 在 这 些 点 上 建立 一 个 线性 边界 是 可 行 的 。 然 而 ， 如 何 寻 找 第 一 层 的 权重 依然 没有 答案 ， 
或 者 我 们 是 否 可 以 在 除 输出 层 神经 元 外 的 其 他 的 神经 元 上 应 用 同样 的 训练 规则 ? 我 们 将 会 在 广义 8 规则 部 分 解决 这 个 问题 。 


3.3.1 MLP 属 性 


多 层 感知 机 可 以 拥有 任意 数量 的 层 ， 每 层 也 可 以 有 任意 数量 的 神经 元 。 每 层 的 激活 函数 也 可 能 是 不 同 的 。 一 个 MLP 网 络 通常 至 少 由 两 层 组 成 ， 一 个 输出 层 ， 一 个 隐 含 层 。 


Qian 也 有 一 些 参 考 资 料 认 为 输入 层 是 收集 输入 数据 的 节点 。 因 此 ， 这 种 情况 下 ，MLP 至 少 有 三 层 。 考 虑 到 本 书 的 目的 ， 把 输入 层 看 作 一 种 特殊 的 层 ， 它 没有 权重 。 并 且 作 为 有 效 的 层 〈 那 些 
练 的 层 ) ， 我 们 考虑 隐 含 层 和 输出 层 。 


Da 
zh 
co 


够 训 


之 所 以 称 为 隐 含 层 ， 因 为 它 实际 上 对 外 部 世界 隐藏 了 它 的 输出 。 任 意 数 量 的 隐 含 层 都 可 以 连接 起 来 ， 从 而 形成 一 个 深度 神经 网 络 。 然 而 ， 神 经 网 络 层 数 越 多 ， 训 练 和 运行 速度 就 会 越 慢 。 根 据 数学 基 


础 ， 一 个 有 一 个 或 两 个 隐 含 层 的 神经 网 络 可 能 和 有 几 十 个 隐 含 层 的 深度 神经 网 络 学 得 一 样 好 ， 但 是 这 取决 于 几 个 因素 。 


~ 


Qian 在 隐 含 层 中 推荐 使 用 非 线性 的 激活 函数 ， 特 别 是 如 果 输 出 层 的 激活 函数 是 线性 的 。 根 据 线性 代数 ， 如 果 层 中 引入 的 追加 变量 仅仅 是 前 一 层 输入 的 线性 组 合 ， 那 么 在 所 有 层 中 都 使 用 线性 激活 函 
$ 


数 ， 就 等 效 于 只 有 一 个 输出 层 。 通 常 ， 使 用 诸如 双 曲 正切 或 者 Sigmoid 这 样 的 激活 函数 ， 因 为 它们 是 可 时 的 。 


3.3.2 ”MLP 权 重 


在 MLP 前 馈 神经 网 络 中 ， 一 个 特定 的 神经 元 i 接收 来 自前 一 层 的 神经 元 j 的 数据 ， 并 将 其 输出 转发 给 下 一 层 的 神经 元 k， 如 图 3-11 所 示 。 
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图 3-11 前 馈 神 经 网 络 


神经 网 络 的 数学 描述 是 递归 的 : 


"hi MAER | | 
=F ». w. f. p} w; f, >》 oe i + 5,|+ b,|+ 5, 
=] j=! . kel 


这 里 ，yo 是 网 络 输出 (如 果 有 很 多 输出 ， 可 以 用 Y 代 蔡 yo， 表 示 一 个 向 量 ) ，fo 是 输出 层 的 激活 函数 ;| 是 隐 合 层 的 数量 ，nhi 是 隐 合 层 | 的 神经 元 数 ，wi 是 最 后 一 个 隐 合 层 的 第 i 个 神经 元 到 输出 神经 元 的 连 
接 权 重 ; fi 是 神经 元 i 的 激活 函数 ; bi 是 神经 元 i 的 偏 置 ， 可 以 看 出 ， 随 着 层 数 增加 ， 公 式 会 变 大 。 求 和 操作 的 最 后 一 个 输入 是 xi。 


3.3.3 ”递归 MLP 


MLP 中 的 神经 元 不 仅 可 以 向 下 一 层 传递 信号 (前 馈 网 络 ) ， 也 可 以 向 同一 层 或 前 一 层 的 神经 元 传递 (反馈 或 者 递归 ) 。 这 种 行为 允许 神经 网 络 在 某 些 数据 序列 中 维持 状态 ， 当 处 理 时 序数 据 或 手写 识别 
时 ， 这 种 特性 尤其 有 用 。 递 归 网 络 通常 难以 训练 ， 而 且 当 执行 它们 时 ， 可 能 导致 计算 机 内 存 耗 尽 。 此 外 ， 还 有 比 MLP 好 的 递归 网 络 结构 ， 比 如 ElIman、Hopfield、Echo state、 双 向 RNN (递归 神经 网 
络 ) 。 但 是 我 们 不 会 深入 探究 这 些 结构 ， 因 为 本 书 旨 在 为 那些 编程 经 验 较 少 的 读者 介绍 最 简单 的 应 用 。 然 而 ， 我 们 会 推荐 递归 神经 网 络 方面 好 的 读物 给 那些 对 它 感 兴 趣 的 人 。 


3.3.4 ”编码 实现 MLP 


将 这 些 概 念 引入 面向 对 象 编程 的 观点 中 ， 可 以 回顾 一 下 目前 已 经 设计 好 的 类 ， 如 图 3-12 所 示 。 


可 以 看 出 神经 网 络 的 结构 是 分 层 的 。 神 经 网 络 由 层 组 成 ， 层 又 由 神经 元 组 成 ， 在 MLP 体 系 结构 中 ， 有 三 种 不 同类 型 的 层 : 输入 层 、 隐 含 层 和 输出 层 。 假 设 我 们 想 使 用 Java 定 义 一 个 含有 3 个 输入 神经 元 
的 输入 层 、 一 个 含有 1 个 输出 神经 元 的 输出 层 (线性 激活 函数 ) 和 一 个 含有 5 个 神经 元 的 隐 合 层 (sigmoid 函 数 ) 的 神经 网 络 。 代 码 如 下 : 


int numberOfInputs=3; 
int numberOfOutputs=1; 
int[] numberOfHiddenNeurons={5}; 


Linear outputAcFnc = new Linear (1.0); 

Sigmoid hiddenAcFnc = new Sigmoid(1.0); 

NeuralNet neuralnet = new NeuralNet (numberOfInputs, numberOfOutputs, 
numberOfHiddenNeurons, hiddenAcFnc, outputAcFnc) ; 


Neuron 


—weight:ArrayList<Double> 

—input:ArrayList<Double> 

—output:Double __| InputNeuron 
_—activationFunction:|ActivationFunction — 


a a —_ a -a 


+1nit0: void 
+calcO:void 


InputLayer | A OutputLayer 


NeuralNet 
—input:ArrayList<Double> 
—output:ArrayList<Double> 
+calcO:void 
+setInputs(values:double| |): void 
+getOutputs0:double| | 


图 3-12 ”MIP 体系 结构 类 图 


3.4 ”MLP 学 习 


MLP 网 络 基于 6 规则 进行 学 习 ， 它 也 受到 梯度 下 降 优化 方法 的 启发 。 梯 度 方法 广泛 应 用 于 寻找 一 个 给 定 函 数 的 最 大 值 和 最 小 值 ， 如 图 3-13 所 示 。 


该 方法 用 于 在 函数 的 输出 值 较 高 或 较 低 的 方向 上 “ 


， 高 和 低 取决 于 所 定 的 标准 。8 规 则 中 探讨 了 这 个 概念 : 


V(K ))x, 


/ | 


行走 


I 


k|g'(h;(k 


6 规则 想 要 最 小 化 的 函数 是 神经 网 络 输出 和 目标 输出 之 间 的 误差 函数 ， 而 要 找 的 参数 是 神经 权重 。 与 感知 机 规则 相 比 ， 这 是 一 种 增强 的 学 习 算 法 ， 因 为 它 考 虑 了 激活 函数 的 导数 g'(h) ， 在 数学 术语 


中 ， 它 表示 函数 下 降 最 快 的 方向 。 


图 3-13 ”使 用 梯度 下 降 法 寻找 最 小 值 


3.4.1 反 向 传播 算法 


虽然 对 于 只 有 输入 层 和 输出 层 的 神经 网 络 来 说 ，8 规 则 很 有 效 ， 但 对 于 MLP 网 络 来 说 ， 由 于 隐 含 层 神经 元 的 存在 ， 不 能 使 用 单纯 的 6 规则 。 为 了 解决 这 个 问题 ， 


法 的 启发 提出 了 一 个 新 的 算法 ， 称 为 反 向 传播 。 


JEA Re A UA 


20 世 纪 80 年 代 ，Rummelhart 等 人 受 梯 度 


这 个 算法 实际 是 泛 化 的 6 规则， 适用 于 MLP。 拥 有 追加 层 的 好 处 是 可 以 从 环境 中 抽象 出 更 多 的 数据 ， 这 促进 了 训练 算法 的 发 展 ， 使 其 能 合理 地 调整 隐 合 层 神 经 元 的 权重 。 基 于 梯度 法 ， 输 出 层 的 误差 将 


会 (向 后 ) 传播 给 前 一 层 ， 因 此 ， 可 以 使 用 与 6 规则 相同 的 公式 来 进行 权重 更 新 。 


该 算法 的 运行 如 图 3-14 所 示 。 


计算 与 目 
将 训练 集 标 之 间 的 误 
输入 MLP 美 ， 并 将 误 

差 反 向 传播 


定义 训练 集 , 根据 神经 层 
川 练 超 参 更 新 权重 


茎 法 是 否 运行 到 了 
规定 的 最 大 i MEAS 


图 3-14 ” 反 向 传播 流程 


第 二 步 是 反 向 传播 本 身 。 它 所 做 的 是 根据 梯度 来 寻找 权重 变化 ， 这 是 5 规则 的 基础 : 
~ | | h 
OB- CL 9E CO; On; 


二 一 a 
OW; ~ 60; ‘Oh, OW;; 


XE, ERZ, WEEL ANENE, oB NRTA, hE EARRA RAAN, iE, oj=f (hi) , 


f 是 激活 ay o 


对 于 隐 含 层 中 的 权重 更 新 ， 我 们 将 误差 看 作 所 有 待 更 新 权重 的 神经 元 和 输出 神经 元 之 间 的 函数 ， 这 有 点 复杂 。 为 了 方便 这 一 过 程 ， 应 该 计算 灵敏 度 或 者 反 向 传播 误差 : 


权重 更 新 公式 如 下 : 


A. 


输出 层 和 隐 含 层 反 向 传播 误差 的 计算 不 同 。 


“ 输出 层 反 向 传播 误差 : 


Bai. 


iL 

这 里 oi 是 第 i 个 输出 ，ti 是 第 i 个 期 望 输出 , f (h) 是 输出 层 激活 函数 的 导数 ，h 有 是 第 i 个 神经 元 所 有 输入 的 加 权 和 。 
“ 隐 含 层 反 向 传播 误差 : 

i 

x | 

( 7 W 
jel A m Cy 
| | il i 


这 里 ，| 是 前 一 层 的 神经 元 ，wi| 是 连接 当前 神经 元 和 前 一 层 第 | 个 神经 元 之 间 的 权重 。 


为 简单 起 见 ， 我 们 没有 详细 演示 如 何 开发 反 向 传播 方程 。 无 论 如 何 ， 如 果 你 对 细节 感 兴 趣 ， 可 以 参考 《Neural Networks——A Comprehensive Foundation》 一 书 ， 作 者 Simon Haykin。 


3.4.2 ”动量 项 
就 像 任何 基于 梯度 的 方法 一 样 ， 它 也 有 落 入 局 部 极 小 值 的 风险 。 为 了 减轻 这 种 风险 ， 可 以 在 权重 更 新 规则 中 加 入 动量 项 ， 它 考虑 了 权重 最 后 的 变化 : 


r 


v. (k tIJ=wW,; (k)+Aw, (k)+ “Aw, (k-1 
wi, (kK + Wa (kK) + Aw, (Kk) THAW, {K 
这 里 ，H 是 动量 率 ，Awji (k-1) 是 最 后 的 delta 权 重 ， 这 为 更 新 增加 了 一 个 额外 的 步骤 ， 因 此 减少 了 在 误差 超 空间 中 的 振荡 。 


3.4.3 ”编码 实现 反 加 传播 


在 edu.packt.neural.learn 包 中 定义 反 向 传播 类 ， 由 于 这 个 学 习 算 法 是 DeltaRule 的 泛 化 ， 因 此 这 个 类 可 以 继承 和 重 载 已 经 在 DeltaRule 类 中 定义 的 特性 。 这 个 类 的 另外 三 个 属性 分 别 是 动量 率 、delta 神 


经 元 和 最 近 的 delta 权 重 数组 : 


public class Backpropagation extends DeltaRule { 
private double MomentumRate=0.7; 
public ArrayList<ArrayList<Double>> deltaNeuron; 
public ArrayList<ArrayList<ArrayList<Double>>> lastDeltaWeights; 


} 


构造 函数 含有 和 DeltaRule 类 相同 的 参数 ， 添 加 对 deltaNeuro 和 lastDeltaWeights 数 组 的 初始 化 方法 的 调用 : 


public Backpropagation(NeuralNet neuralNet, NeuralDataSet trainDataSet, 
DeltaRule.LearningMode _learningMode) { E 

super ( neuralNet, trainDataSet, learningMode) ; 

initializeDeltaNeuron () ; 7 

initializeLastDeltaWeights (); 


} 


train () 方法 和 在 DeltaRule 类 中 的 工作 方式 一 致 。 追 加 的 组 件 是 向 后 的 步骤 ， 通 过 这 个 步骤 ， 误 差 沿 着 神经 层 反 向 传播 到 输入 层 : 


@Override 
public void train() throws NeuralException{ 
neuralNet.setNeuralNetMode (NeuralNet .NeuralNetMode. TRAINING) ; 
epoch=0; // initialization of epoch 
int k=0; // first training record 
currentRecord=0; // this attribute keeps track of which record 
// is currently under processing in the training 
forward (); // initial forward step to determine the error 
forward (k) ; // forward for backpropagation of first record error 
while (epoch<MaxEpochs && overallGeneralError>MinOverallError) { 
backward (); // backward step 
switch (learningMode) { 


case BATCH: 


if (k==trainingDataSet .numberOfRecords-1) 
applyNewWeights () ; // batch update 


break; 
case ONLINE: 
applyNewWeights () ; // online update 
currentRecord=++k; // moving on to the next record 
if (k>=trainingDataSet.numberOfRecords) { // if it was the last 
k=0; 
currentRecord=0; // reset to the first 
epocht++; // and increase the epoch 
} 
forward (k); // forward the next record 


} 
neuralNet.setNeuralNetMode (NeuralNet .NeuralNetMode. RUN) ; 


反 向 步骤 的 作用 是 通过 误差 的 反 向 传播 来 确定 权重 变化 ， 误 差 从 输出 层 反 向 传播 到 第 一 个 隐 含 层 : 


public void backward () { 

int numberOfLayers=neuralNet.getNumberOfHiddenLayers () ; 
for(int l=numberOfLayers; 1>=0;1-—) { 
int numberOfNeuronsInLayer=deltaNeuron.get (1) .size(); 
for(int j3=0;j<numberOfNeuronsInLayer; j++) { 
for(int i=0;i<newWeights.get(1).get(j).size();it+) { 

// get the current weight of the neuron 

double currNewWeight = this.newWeights.get (1) .get(j) .get (i); 
// if it is the first epoch, get directly from the neuron 
if (currNewWeight==0.0 && epoch==0.0) 
f (1==numberOfLayers) 
currNewWeight=neuralNet.getOutputLayer().getWeight (i, J); 
else 

currNewWeight=neuralNet.getHiddenLayer (1). 

getWeight (i, Jj); 

// calculate the delta weight 
double deltaWeight=calcDeltaWeight (l, i, J); 
// store the new calculated weight for subsequent update 
newWeights.get (1) .get (j) .set (1, currNewWeightt+deltaWeight) ; 


babe 


H- 


反 向 传播 的 步骤 是 在 calcDeltaWeight () 函数 中 执行 的 。 动 量 将 会 在 更 新 权重 之 前 加 入 ， 因 为 它 应 该 记 住 最 后 一 个 delta 权 重 : 


public Double calcDeltaWeight (int layer,int input,int neuron) { 

Double deltaWeight=1.0; 
NeuralLayer currLayer; 
Neuron currNeuron; 

double _deltaNeuron; 

if (layer==neuralNet .getNumberOfHiddenLayers()){ // output layer 
currLayer=neuralNet.getOutputLayer () ; 
currNeuron=currLayer.getNeuron (neuron) ; 
_deltaNeuron=error.get (currentRecord) .get (neuron) 

*currNeuron. derivative (currLayer.getInputs ()); 

} else{ // hidden layer 
currLayer=neuralNet.getHiddenLayer (layer) ; 
currNeuron=currLayer.getNeuron (neuron) ; 
double sumDeltaNextLayer=0; 
NeuralLayer nextLayer=currLayer.getNextLayer () ; 

for(int k=0;k<nextLayer.getNumberOfNeuronsInLayer () ; k++) { 
sumDeltaNextLayert=nextLayer.getWeight (neuron, k) 

*deltaNeuron.get (layer+1) .get (k); 


} 
_deltaNeuron=sumDeltaNextLayer* 
currNeuron.derivative (currLayer.getInputs ()); 
deltaNeuron.get (layer) .set (neuron, _deltaNeuron) ; 
deltaWeight*= deltaNeuron; 
if (input<currNeuron.getNumberOfInputs () ) { 
deltaWeight*=currNeuron.getInput (input) ; 


} 
return deltaWeight; 


注意 ，_ deltaNeuron 的 计算 对 于 输出 层 和 隐 含 层 是 不 同 的 ， 但 它们 都 用 到 了 导数 。 为 了 方便 起 见 ， 为 Neuron 类 添加 了 derivative () 函数 。 详 情 可 在 Annes 亚 文件 中 找到 。 最 后 ， 用 输入 对 应 的 权重 乘 
以 计算 出 的 delta 权 重 。 


权重 更 新 由 方法 applyNewWeights () 执行 。 为 了 节省 空间 ， 我 们 不 会 在 这 里 写 出 整个 方法 体 ， 只 写 出 执行 权重 更 新 的 部 分 核心 代码 : 


HiddenLayer hl = this.neuralNet.getHiddenLayer (1) ; 

Double lastDeltaWeight=lastDeltaWeights.get (1) .get (j) .get (i); 
// determine the momentum 
double momentum=MomentumRate*lastDeltaWeight; 

// the momentum is then added to the new weight 

double newWeight=this.newWeights.get (1) .get (j) .get (1) -momentum; 


this.newWeights.get (1) .get (]) .set (1, newWeight) ; 
Neuron n=hl.getNeuron (j); 
// save the current delta weight for the next step 
double deltaWeight= (newWeight- n.getWeight (1)); 
lastDeltaWeights.get (1) .get (j) .set (i, (double) deltaWeight) ; 


// finally the weight is updated 
hl.getNeuron (j) .updateWeight (i, newWeight) ; 


在 列 出 的 代码 中 ，| 表 示 层 ，j 表 示 神 经 元 ，| 表 示 权 重 的 输入 。 对 于 输出 层 ，| 等 于 隐 含 层 的 数量 (超出 Java 数 组 的 限制 ) ，NeuralLayer 调 用 如 下 : 


OutputLayer ol = this.neuralNet.getOutputLayer () ， 
Neuron n=ol. getNeuron (j); 
ol.getNeuron (j) .updateWeight (i, newWeight) ; 


这 个 类 的 使 用 方法 和 DeltaRule 类 完全 相同 : 


int numberOfInputs=2; 

int numberOfOutputs=1; 

int[] numberOfHiddenNeurons={2}; 

Linear outputAcFnc = new Linear (1.0); 

Sigmoid hdAcFnc = new Sigmoid(1.0); 

TActivationFunction[] hiddenAcFnc={hdAcFnc }; 

NeuralNet mlp = new NeuralNet (numberOfInputs, numberOfOutputs, 
numberOfHiddenNeurons, hiddenAcFnc, outputAcFnc) ; 
Backpropagation backprop = new Backpropagation (mlp,neuralDataSet, 
LearningAlgorithm. LearningMode.ONLINE) ; 


在 本 章 的 最 后 ， 我 们 将 会 比较 基于 8 规则 的 感知 机 和 基于 反 向 传播 的 多 层 感 知 机 ， 试 图 解决 “ 异 或 ”问题 。 


3.4.4 Levenberg-Marquardt 算 法 


与 所 有 基于 梯度 的 方法 一 样 ， 反 向 传播 算法 通常 收敛 缓慢， 特别 是 当 它 落 在 一 个 “之 ”字形 的 情况 下 ， 每 次 迭代 后 ， 权 重 都 没有 多 大 改变 。 这 个 问题 被 Kenneth Levenberg 在 1944 年 的 “曲线 拟 合 ”中 
研究 过 ， 后 来 在 1963 年 ，Donald Marquart 开 发 了 一 种 基于 高 斯 牛顿 法 和 梯度 下 降 法 的 方法 来 求 系数 ， 算 法 的 名 称 便 由 此 而 来 。 


LM 算法 处 理 了 很 多 超出 本 书 范围 的 优化 问题 ， 读 者 可 以 在 本 书 末 尾 的 “参考 文献 ”中 找到 很 好 的 资源 来 详细 学 习 这 些 概 念 ， 因 此 这 里 只 用 简单 的 方式 来 呈现 该 算法 。 假 设 有 一 个 输入 列表 x 和 输出 列表 


x, (0 s x (0)4(0) 4(0) == 4 (0 
xl w x DA 40) - 40 
x(k) x(k) =- x (k)t(k) t(k) = alk 


我 们 已 经 看 到 ， 神 经 网 络 有 将 输入 映射 到 输出 的 特性 ， 类 似 一 个 系数 为 W 的 非 线性 函数 f (权重 和 偏 置 ) : 


Y=f(X,W) 


这 个 函数 将 产生 不 同 于 输出 T 的 值 ， 因 为 在 国 数 中 用 Y 表 示 T。Levenberg-Marquardt 算 法 基于 雅 可 比 矩 阵 执行 ， 它 是 一 个 矩阵 ， 包 含 每 个 数据 行 关 于 每 个 权重 和 偏 置 的 所 有 偏 导 数 。 所 以 雅 可 比 和 矩阵 的 
格式 如 下 : 


T 


AW=|J J+I)J (Y-f(X W 


这 里 ，k 是 数据 点 的 总 数 ，p 是 权重 和 偏 置 的 总 数 。 在 雅 可 比 和 矩阵 中 ， 所 有 的 权重 和 偏 置 都 连续 存储 在 一 行 中 。 雅 可 比 和 矩阵 的 元 素 由 梯度 计算 而 来 : 


W W 


在 反 向 传播 算法 中 计算 了 误差 E 关 于 每 个 权重 的 偏 导 数 ， 所 以 该 算法 也 将 执行 反 向 传播 步 又。 


在 每 个 优化 问题 中 ， 我 们 都 希望 最 小 化 总 体 错误 : 
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XE, W (在 神经 网 络 中 的 权重 和 偏 置 ) 是 要 优化 的 变量 。 优 化 算法 通过 加 上 AW 来 更 新 W。 通 过 运用 一 些 代 数 运算 ， 最 后 一 个 公式 可 以 扩展 如 下 : 


转化 为 向 量 和 符号 : 


ELE(W+AW 


最 后 ， 通 过 将 误差 E 设 置 为 0， 在 一 些 操作 之 后 ， 得 到 Levenberg-Marquardt 方 程 : 


E(W+AW)=|Y —f(X,W)-JAW l 


这 是 权重 更 新 规则 。 正 如 我 们 所 见 ， 它 涉及 和 矩阵 运算 ， 如 转 置 和 求 送 ， 入 是 阻尼 因子 ， 等 价 于 学 习 率 。 


3.4.5 ”编码 实现 基于 息 阵 代数 的 Levenberg-Marquardt 算 法 


为 了 有 效 地 实现 LM 算 法 ， 使 用 矩阵 代数 非常 有用。 为 了 解决 这 个 问题 ， 在 edu.packt.neuralnet.math 包 里 定义 了 一 个 叫 Matrix 的 类 ， 包 含 所 有 的 矩阵 操作 ， 比 如 乘法 、 求 送 和 LU 分 解 等 。 读 者 可 以 参 


考 文 档 来 了 解 这 个 类 的 更 多 信息 。 


Levenberg-Marquardt 算 法 运用 了 反 向 传播 算法 的 许多 特性 ， 这 也 是 这 个 类 继承 自 反 向 传播 类 的 原因 。 


FET GFE: 这 个 给 阵 包含 所 有 训练 记录 关于 每 个 权重 的 偏 导 。 


“ 阻尼 因子 。 


* 误差 反 向 传播 : 这 个 数组 和 deltaNeuron 的 功能 相同 ,但 它 的 计算 与 每 个 神经 输出 有 一 


- 误差 LMA: 矩阵 形式 的 误差 。 


public class LevenbergMarquardt extends Backpropagation { 
private Matrix jacobian = null; 
private double damping=0.1; 
private ArrayList<ArrayList<ArrayList<Double>>>errorBackpropagation; 
private Matrix errorLMA; 
public ArrayList<ArrayList<ArrayList<Double>>> lastWeights; 


点 不 同 ， 所 以 定义 了 单独 的 属性 


train () 函数 的 功能 基本 上 与 反 向 传播 相同 ， 除 了 雅 可 比 和 矩阵 的 计算 、 误 差 矩阵 和 阻尼 更 新 不 同 之 外 ， 代 码 如 下 : 


@Override 
public void train() throws NeuralException{ 


neuralNet.setNeuralNetMode (NeuralNet .NeuralNetMode. TRAINING) ; 
forward (); 

double currentOverallError=overallGeneralError; 

buildErrorVector (); // copy the error values to the error matrix 


while (epoch<MaxEpochs && overallGeneralError>MinOverallError&& 
damping<=10000000000.0) { 
// to prevent the damping fromgrowing up to infinity 


backward () ; // to determine the error backpropgation 
calculateJacobian () ; // copies the derivatives to the jacobianmatrix 
applyNewWeights () ; // update the weights 

forward(); // forward all records to evaluate new overall error 


Dp 


if (overallGeneralError<currentOverallError) { 
if the new error is less than current 


damping/=10.0; // the damping factor reduces 
currentOverallError=overallGeneralError; 

} 

else { // otherwise, the damping factor grows 


damping*=10.0; 
restoreLastWeights(); // the last weights are recovered 
forward (); 


} 


buildErrorVector(); reevaluate the error matrix 


} 
neuralNet.setNeuralNetMode (NeuralNet .NeuralNetMode.RUN) ; 


} 


遍历 训练 娄 法 。 这 个 方法 处 理 了 backward ( 
double input; 
if (p==numberOfInputs) 
input=1.0; 
else 
input = n.getInput (p); 


double deltaBackprop = errorBackpropagation.get (m) .get (1) .get (k); 
jacobian.setValue(i, j++, deltaBackprop*input) ; 


在 代码 清单 中 ，p 是 连接 到 神经 元 的 输入 ( 当 与 输入 神经 元 数量 相等 时 ， 它 代表 偏 置 ) 
可 定位 。 注 意 ， 在 设置 雅 可 比 和 矩阵 的 值 之 后 ，Jj 会 自 增 。 


通过 确定 deltaWeight 和 矩阵 来 执行 权重 更 新 : 


Matrix jacob=jacobian.subMatrix(rowi, rowe, 0, numberOfWeights-1) ; 

Matrix errorVec = errorLMA.subMatrix(rowi, rowe, 0, 0); 

Matrix pseudoHessian=jacob.transpose () .multiply (jacob); 

Matrix mildent = new IdentityMatrix (numberOfWeights) .multiply (damping); 

Matrix inverseHessianMi = pseudoHessian.add(mildent) .inverse () ; 

Matrix deltaWeight = inverseHessianMi.multiply (jacob.transpose()). 
multiply (errorVec) ; 


) 方法 评估 出 的 反 向 传播 误差 


,是 神经 元 ，| 是 层 ，m 是 神经 输出 ， 


这 个 类 一 些 新 的 属性 包括 以 下 几 个 。 


i 是 记录 的 顺序 索引 ，j 是 权重 或 偏 置 的 顺序 索引 ， 根 据 所 在 的 层 和 神经 元 即 


前 面 的 代码 实现 了 算法 描述 中 的 矩阵 代数 ， 和 矩阵 deltaWeight 包 含 了 神经 网 络 中 的 每 个 权重 的 变化 。 在 下 面 的 代码 中 ，k 是 神经 元 ，j 是 输入 ，| 是 层 。 


Neuron n=nl.getNeuron (k); 

double currWeight=n.getWeight (j); 

double newWeight=currWeight+deltaWeight.getValue (i++, 0); 
newWeights.get (1) .get (k) .set (j, newWeight) ; 
lastWeights.get (1) .get (k) .set (j, currWeight) ; 
n.updateWeight (j, newWeight) ; 


， 权 重 保 存在 lastWeights 数 组 中 ， 所 以 当 误 差 变 糟 之 后 可 以 恢复 它们 ，。 


3.4.6 极限 学 习 机 


利用 和 矩阵 代数 ， 极 限 学 习 机 (ELM) 能 够 快速 收敛 ， 这 种 学 习 算法 有 一 个 局 限 性 ， 它 


在 答 阵 代数 中 表示 神经 网 络 ， 如 图 3-15 所 示 。 


已 只 应 用 于 包含 一 个 隐 含 层 的 神经 


网 络 。 在 实践 中 ， 单 隐 


网 络 在 大 部 分 的 应 用 中 都 表现 良好 。 


HS ai 


g (XM +b) 
a= 3 
g (XM, + by) 


WİN] = y, [N] 


这 里 ，H 是 隐 含 层 的 输出 ，9g () SS Rea, XEBINAACR Wes Meare Mee, bets Maan, ppp, VE h. 


在 ELM 算 法 中 ， 隐 含 层 的 权重 是 随机 生成 的 ， 而 输出 权重 是 根据 最 小 二 乘法 来 调整 的 : 


E E 
E] 
a e a 
一 m: m m: 
TE a - a 


a N — Y 


0 


xE, TEI 


练 数据 集 的 目标 输出 。 


这 个 算法 在 一 个 名 为 ELM 的 类 中 实现 ， 它 与 其 他 的 让 


练 算法 在 同一 个 包 中 。 这 个 类 继承 自 DeltaRule， 它 具有 监督 学 习 算法 的 所 有 基本 属性 。 


public class ELM extends DeltaRule { 
private Matrix H; 
private Matrix T; 
public ELM(NeuralNet _neuralNet,NeuralDataSet _trainDataSet) { 
super ( neuralNet, trainDataSet) ; 
learningMode=LearningMode .BATCH; 
initializeMatrices (); 


} 


TXT, EM TIM, BRKSATROMBITE. REAM wert A eas 


练 算法 相似 ， 除 了 它 只 在 批量 模式 下 工作 。 


由 于 这 个 训练 算法 只 和 迭代 一 次 ， 因 此 训练 方法 使 用 所 有 的 训练 记录 来 构建 矩阵 H。 然 后 ， 计 算 输 出 权重 : 
@Override 
public void train() throws NeuralException{ 


if (neuralNet .getNumberOfHiddenLayers () !=1) 

throw new NeuralException ("The ELM learning algorithm can be 
performed only on Single Hidden Layer Neural Network") ; 
neuralNet.setNeuralNetMode (NeuralNet .NeuralNetMode. TRAINING) ; 
int k=0; 
int N=trainingDataSet.numberOfRecords; 
currentRecord=0; 


double currentOverallError=overallGeneralError; 
while (k<N) { 

forward (k); 

buildMatrices (); 

currentRecord=++k; 

} 
applyNewWeights () ; 

forward (); 

currentOverallError=overallGeneralError; 
neuralNet.setNeuralNetMode (NeuralNet .NeuralNetMode.RUN) ; 


buildMatrices () 方法 只 将 隐 含 层 的 输出 放 入 和 矩阵 H 的 相应 行 中 。 输 出 权重 在 applyNewWeight () 方法 中 进行 调整 : 


@Override 
public void applyNewWeights () { 
Matrix Ht = H.transpose(); 


Matrix HtH = Ht.multiply (H); 
Matrix invH = HtH.inverse(); 
Matrix invHt = invH.multiply (Ht); 
Matrix beta = invHt.multiply(T); 


OutputLayer o] 
HiddenLayer hl 


this.neuralNet.getOutputLayer () ; 
(HiddenLayer) ol.getPreviousLayer () ; 
int h = hl.getNumberOfNeuronsInLayer () ; 
int n ol.getNumberOfNeuronsInLayer () ; 
for(int i=0;i<=h;i++) { 
for(int j3=0;j<n; j++) { 
if (i<h || outputBiasActive) 

ol.getNeuron(j) .updateWeight (i, beta.getValue(i, j)); 


现在 看 一 下 多 层 感知 机 。 我 们 编码 实现 了 XORTest.java 示 例 ， 使 用 如 表 3-6 所 示 的 特性 创建 了 两 个 神经 网 络 。 


神经 网 络 
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最 小 整体 误差 


Java 代 码 如 下 : 


3.5 ”实例 1 一 一 基于 5 规则 和 反问 传播 的 “ 异 或 ”问题 


表 3-6 神经 网 络 问题 所 用 特性 


感知 机 


Non 
:性 
6 规则 


At ts 


© 
pa. 


© 
| 


4000 


i 


多 层 感知 机 


7 


2 
Sigmoid 
线性 
反问 传播 


public class XORTest { 


public static void main(String[] args) { 


RandomNumberGenerator.seed=0; 
int numberOfInputs=2; 
int numberOfOutputs=1; 


int[] 


Linear outputAcFnc = 
Sigmoid hdAcFnc = new 
TActivationFunction [] 


NeuralNet perceptron = 


numberOfHiddenNeurons={2}; 


new Linear (1.0); 


Sigmoid(1.0); 
hiddenAcFnc={hdAcFnc}; 


new NeuralNet (numberof 


Inputs, 


numberOfOutputs, outputAcFnc) ; 
NeuralNet mlp = new NeuralNet (numberOfInputs, numberOfOutputs, 
numberOfHiddenNeurons, hiddenAcFnc, outputAcFnc) ; 


} 
} 


接着 ， 定 义 了 数据 集 和 学 习 算 法 : 


Double[][] _neuralDataSet = { 
00 7 O20 ,. Ld }, 
{050° LQ OD bp 
{1.0 , 0.0, 0:0 4, 
‘aD TQ » dO 4 

}; 

int[] inputColumns = {0,1}; 

int[] outputColumns = {2}; 


NeuralDataSet neuralDataSet = new NeuralDataSet (_neuralDataSet, inputCo 


lumns, outputColumns) ; 


e deltaRule=new DeltaRule (perceptron, neuralDataSet 


DeltaRu 

, LearningAlgorithm. LearningMode. ONLINE) ; 
deltaRule.printTraining=true; 
deltaRule.setLearningRate (0.1); 
deltaRule.setMaxEpochs (4000) ; 
deltaRule.setMinOverallError (0.1); 


Backpropagation backprop 


= new 


backprop.printTraining=tr 
backprop.setLearningRate ( 
backprop.setMaxEpochs (400 


ue; 
0.3); 
0); 


Backpropagation (mlp, neuralDataSet 
, LearningAlgorithm. LearningMode. ONLINE) ; 


backprop.setMinOverallError (0.01); 


backprop.setMomentumRate ( 


0.6); 


然后 针对 两 种 算法 进行 训 


练 。 正 如 所 料 ， 对 于 单 层 感知 机 ， 


“ 异 或 ”问题 是 线性 不 可 分 的 。 


神经 网 络 执行 训 


练 了 但 没有 成 功 。 单 层 感知 机 的 6 规则 让 


练 过 程 中 参数 的 输出 如 图 3-16 所 示 。 


deltaRule.train(); 


Epoch#3997; Recorde3; Overall Errore#0.308641975308642 
Epoch=#359596; Record=0; Overall Error=0.3006415975308642 
Epoche#3998; Recordel; Overall Errored .308641978308642 
epoch=3998; Record=2; Overall Zrror=0.308641975308642 
Epoch#3998; Recorde#3; Overall Errore0.308641978308642 
Epoch=3999; Record=0; Overall Error=0.3098641975308642 
Epoch=3999; Recordel; Overall Errore0.3086€41978308642 
epoch=3999; Record=z; Overall Error=0.308641975308642 
Epoch#sSS9; Recordes; Overall Error=0.308641975308642 
Epoch=4000; Record=0; Overall Error=0.308641975308642 
End of Delta Rule training 

Training was unsuccessful 

Overall Error:0.308641975308642 

Min Overall Error:0.1 

Epochs of training: 4000 

Target Outputs: 

Targets: 

Target Output(0)={ 1.0) 

Target Output(ije({ 0.0} 

Target Output(z)={ 0.0} 

Target Output(3)e{ 1.0) 

Neural Output after training: 

Neural: 

Neural Output (O)=({ 0.4444444444444441)} 

Neural Output(lje{ 0.499999995999999959)} 

Neural Output(z)=( 0.5555555555555555} 

Neural Output(3sJ#{ 0.6111111111111112} 


B 


A316 单 层 感知 机 的 输出 


但 是 多 层 感 知 机 的 反 向 传播 算法 在 39 个 迭代 之 后 学 习 到 了 “ 异 或 ”函数 ， 训 练 过 程 中 参数 的 输出 如 图 3-17 所 示 。 


backprop.train(); 


Epoch=3 7 
Epoch=38 ; 
Eroch=38; 
Epochese ; 
Epoch=38 ; 
Epoche39; 
Epoch=35 > 
Epoch=39; 
Epoch=35; 


Record=3; 
Record=0; 
Record=1; 
Records? ; 
lecord=3 ; 


Hecé raed; 


Record=1; 
Records? ; 
hecora=3 ; 


End of training 


Training successful! 


Overall 
Overall 
Overall 
Cvrerall 
Overall 
Café tal 1 
Overall 
Cyrerall 
Overall 


Srror=0 0143162762 76702164 
Errore? O14205076880259711 
Error=0.0135¢75i0e42450630 
Errored OLZSLS60LAZSES00655 
Srror=0.01152450L8S6923705 
Errored OLI4E4 287 L267 615572 
Error=) .O1ll2429935S33301890 
Errore?) 01031 35911114928S87 
Error=0.00523705464052056 


Overall Errer:0.905923705444052056 
Min Overall Error:0.01 
Eno chs of Eraining: 393 
Target Outputs: 


Targets: 


Target Outpuc(d]={ 1.0} 
Target Outpur[1]={ 0.0) 
Target Outrpuci<e]={ 9.0} 
Target Ourpurt[3]={ 1.0} 
Heural Output after training: 


Héeural = 


0. 002G 02i AoT fee | 
一 日 - 034317801910 536794} 
—-0.004429142261351461} 
0. 8635135822257 722 } 


Neural Outpur [ld]=1 
Neural Ourtpue[1]=]{ 
Heural Outpuc(2)]={ 
Neural Output[3s)]={ 


图 3-17 多 层 感 知 机 输出 


3.6 ”实例 2 一 一 预测 入 学 状态 


在 巴西 ， 一 个 人 上 大 学 的 方法 之 一 就 是 参加 考试 ， 如 果 他 /她 达到 了 课程 所 要 求 的 最 低 分 ， 那 么 就 可 以 被 录取 。 为 了 演示 反 向 传播 算法 ， 思 考 这 个 场景 。 表 3-7 显 示 的 数据 从 大 学 数据 库 中 收集 而 来 。 第 
二 列表 示人 的 性 别 (1 表示 女性 ，0 代 表 男 性 ) ;第 三 列 是 百分比 化 后 的 成 绩 ， 最 后 一 列 由 两 个 神经 元 组 成 (10 表示 录取 ，01 表 示 示 录取) 。 


表 3-7 学 生 的 一 些 数据 


样本 


样本 性 别 自分 比 化 后 的 成 绩 录取 状态 


和 ll mm 0 
9 
0 


A 


01 
| | 01 


Double[][] _neuralDataSet = { 
{1.0, O.t3, 1.0, SLO]; 
{1.0, ?0.81, My lb}; 
{1.0, ?0.86, Le HL Oly 
{0.0, ?0.65, Ly =LiOys 
{0.0, 20.45, 1.0, -1.0}, 
tL, 20.70; -1.0; 1.0}, 
{0:0; 20.51, =1.0; 1.0}, 
{1.0, 20.89, -1.0, 1.0}, 
{1::0; 20.79; -1.0, 1.0}, 
{0.0, ?0.54, =1 .0 140} 

}; ? 

int[] inputColumns = {0,1}; 

int[] outputColumns = {2,3}; 

NeuralDataSet neuralDataSet = new NeuralDataSet (_neuralDataSet, inputCo 


lumns, outputColumns) ; 


构建 一 个 隐 含 层 含 有 三 个 神经 元 的 神经 网 络 ， 如 图 3-18 所 示 。 


图 3-18 神经 结构 


int numberOfInputs = 2; 

int numberOfOutputs = 2; 

int[] numberOfHiddenNeurons={5}; 

Linear outputAcFnce = new Linear(1.0); 

Sigmoid hdAcFnc = new Sigmoid(1.0); 

TActivationFunction[] hiddenAcFnc={hdAcFnc_ }; 

NeuralNet nnim = new NeuralNet (numberOfInputs, numberOfOutputs, 
numberOfHiddenNeurons, hiddenAcFnc, outputAcFnc) ; 

NeuralNet nnelm = new NeuralNet (numberOfInputs, numberOfOutputs, 

numberOfHiddenNeurons, hiddenAcFnc, outputAcFnc) ; 


也 建立 了 Levenberg-Marquardt 学 习 算 法 和 极限 学 习 机 : 


LevenbergMarquardt lma = new LevenbergMarquardt (nnim, 
neuralDataSet, 
LearningAlgorithm. LearningMode.BATCH) ; 
ima.setDamping (0.001); 

ima .setMaxEpochs (100) ; 
ima.setMinOverallError (0.0001) ; 


ELM elm = new ELM(nnelm, neuralDataSet) ; 
elm. setMinOverallError (0.0001) ; 
elm.printTraining=true; 


7J\o 


练 是 成 功 的 。Levenberg-Marquardt 算 法 在 9 次 迭代 之 后 就 达到 了 最 小 满意 误差 ， 训 | 


Epoch= 
Epoch= 
Epoch 
Epoch= 
Epoch= 
Epoch= 
Epoch# 
Epoch= 
Epoch= 
Epoch= 
End of 


if = 
we 
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2 
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Overalls 
Overall 
Overall 
Overall 
Overall 
Overall 
Overall 
Overall 
Overall 
Overall 


training 


Error 
Error 
Error 
Error 
Error 
Error 
Error 
Error 
Error 
Error 


Training successful! 
Overall Error:<.395928627973254=E-$ 


Min Overall Error:1.0E-4 


极限 学 习 机 几乎 获得 了 一 个 为 0 的 误差 ， 如 图 3-20 所 示 。 


Epoch= 0; Overall 
Epoch= 1; Overall 


=27. 504416063005975 
=0.0015829236005955073 
=0.00158292360059558073 


=0.0015629236005955073 


=6.565629615058485=-4 
=€.5656296150S848SE-4 
=3.08342957944887663E-4 
=3.08342975944887663E-4 
=3.0834297944887663E-4 
=2 . 3959286279 73254=-5 


图 3-19 ”Levenberg-Marquardt 算 法 训练 的 输出 


End of training 


Training successful! 
Overall Error:0.0 


Min Overall 


3.7 ”本 章 小 结 


在 这 一 章 ， 我 们 学 习 了 感知 机 如 何 用 于 解决 线性 可 分 问题 ， 以 及 对 于 线性 不 可 分 问题 的 局 限 性 。 为 了 抑制 这 些 局 限 性 ， 介 绍 了 多 层 感知 机 (MLP) 和 新 的 训练 算法 : 反 向 传播 、Levenberg-Marquardt 
和 极限 学 习 机 。 我 们 也 看 到 了 一 些 可 以 应 用 MLP 解 决 的 问题 类 型 ， 比 如 分 类 和 回归 。Java 实 现 探索 了 反 向 传播 算法 在 更 新 输出 层 和 隐 含 层 权 重 上 的 强大 能 力 。 通 过 两 个 实际 应 用 ， 演 示 了 MLP 如 何 借助 三 种 


学 习 算法 解决 问题 。 


本 章 将 介绍 一 种 适用 于 无 监督 学 习 的 神经 网 络 体系 结构 : 自 组 织 映 射 ， 也 叫 Kohonen 网 络 。 在 不 需要 任何 目标 输出 ， 也 不 需要 在 更 小 的 维度 找到 数据 表示 的 情况 下 ， 这 种 特殊 类 型 的 网 络 就 能 对 数据 进 


Error =19.074542981619114 
Error =0.0 


Exrror:1.0E-4 


图 3-20 极限 学 习 机 训练 的 输出 


第 4 章 “ 自 组 织 映射 


行 分 类 。 这 一 章 将 探讨 如 何 实现 这 一 目标 ， 并 介绍 一 些 能 证 明 其 分 类 能 力 的 示例 。 本 章 将 讨论 以 下 主题 : 


+ 无 监督 神经 网 络 


. Kohonen 自 组 织 映 射 

. 一 维 SOM 

. 二 维 SOM 

“ 用 无 监督 学 习 解 决 问题 
:Java 实现 

数据 可 视 化 


- 实际 问题 


4.1 无 监督 神经 网 络 


通过 学 习 第 2 章 ， 我 们 已 经 熟悉 了 无 监督 学 习 。 现 在 更 详细 地 探讨 这 种 学 习 模式 的 特性 。 无 监督 学 习 算法 的 任务 是 在 数据 集中 寻找 模式 ， 参 数 (神经 网 络 权 重 ) 调整 时 不 需要 依靠 误差 度量 (没有 目标 
H) 


监督 算法 提供 了 与 所 给 数据 集 数量 相等 的 输出 ， 而 无 监督 算法 无 须知 道 输出 值 。 这 种 无 监督 学 习 的 基本 原理 主要 源 于 这 样 一 个 事实 : 在 神经 学 中 ， 相 似 的 刺激 会 产生 相似 的 反应 。 因 此 ， 将 此 原理 应 用 
到 人 工 神经 网 络 中 ， 可 以 说 相似 的 输入 数据 能 产生 相似 的 输出 ， 所 以 这 些 输出 可 以 分 组 或 者 聚 类 。 


尽管 这 种 学 习 模式 也 会 用 于 其 他 数学 领域 ， 比 如 统计 学 ， 但 是 它 的 核心 功能 是 为 机 器 学 习 问题 而 设计 的 ， 比 如 数据 挖掘 、 模 式 识别 等 。 神 经 网 络 是 机 器 学 习 学 科 的 一 个 分 支 ， 如 果 神 经 网 络 结构 允许 迭 
代 学 习 ， 则 它 可 以 作为 应 用 无 监督 学 习 概 念 的 一 个 较 好 的 框架 。 


大 多 数 无 监督 学 习 应 用 都 旨 企 聚 类 ， 这 意味 着 相似 的 数据 点 将 聚集 到 一 块 ， 而 不 同 的 数据 点 将 形成 不 同 的 聚 艇 。 无 监督 学 习 的 一 个 应 用 是 数据 降 维 或 数据 压缩 ， 前 提 是 能 在 大 型 数据 集中 找到 更 简单 更 
小 的 数据 表示 。 


神经 网 络 并 不 是 唯一 的 无 监督 学 习 算法 ， 如 k 均 值 、 期 望 最 大 化 以 及 矩 估 计 等 也 是 无 监督 学 习 算法 的 例子 。 所 有 这 些 学 习 算 法 的 一 个 共同 特征 是 : 当前 数据 集 的 变量 之 间 不 存在 映射 天 系 。 相 反 ， 人 们 希 
望 依据 数据 集 的 不 同 含义 对 其 进行 分 类 ， 这 是 所 有 无 监督 学 习 算法 的 目标 。 


在 监督 学 习 算法 中 ， 通 常 只 有 少量 的 输出 ;而 对 于 无 监督 学 习 ， 因 为 需要 产生 一 个 抽象 的 数据 表示 ， 这 可 能 需要 大 量 的 输出 ， 除 了 分 类 任务 之 外 ， 它 们 的 含义 与 监督 学 习 所 呈现 的 完全 不 同 。 通 常 ， 每 
个 输出 神经 元 负责 表达 输入 数据 的 一 个 特性 或 者 类 别 。 在 大 多 数 体系 结构 中 ， 并 不 是 所 有 输出 神经 元 每 次 都 需要 激活 ， 只 有 一 部 分 输出 神经 元 可 能 会 被 触发 ， 这 意味 着 这 部 分 神经 元 能 够 更 好 地 表示 神经 输 
入 所 提供 的 大 部 分 信息 。 


QER 与 监督 学 习 相 比 ， 无 监督 学 习 的 一 个 优点 是 : 在 学 习 大 型 数据 集 时 需要 较 少 的 计算 资源 。 其 时 间 消 耗 呈 线性 增长 ， 而 监督 学 习 则 王 指 数 级 增长 。 


本 章 将 探讨 两 种 无 监督 学 习 算 法 : 竞争 学 习 和 Kohonen 自 组 织 映 射 。 


42.1 FREY 


顾名思义 ， 竞 争 学 习 主 要 处 理 输出 神经 元 之 间 的 竞争 ， 以 此 来 决定 谁 是 赢家 。 在 竞争 学 习 中 ， 获 胜 的 神经 元 通常 是 通过 比较 权重 和 输入 (具有 相同 的 维度 ) 来 确定 的 。 为 了 便于 理解 ， 假 设 要 训练 一 个 
单 层 神经 网 络 ， 它 有 两 个 输入 和 四 个 输出 ， 如 图 4-1 所 示 。 
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每 个 输出 神经 元 都 连接 两 个 输入 神经 元 ， 因 此 每 个 输出 神经 元 都 有 两 个 权重 。 
QER 该 学 习 中 ， 仿 置 被 丢弃 ， 因 此 神经 元 只 会 处 理 加 权 输入 神经 元 。 


数据 被 神经 元 处 理 后 ， 竞 争 则 开始 。 权 重 接 近 输 入 值 的 那个 神经 元 即 为 获胜 神经 元 。 与 监督 学 习 算法 相 比 ， 另 一 个 不 同 之 处 是 只 有 获胜 神经 元 可 以 更 新 它们 的 权重 ， 而 其 他 神经 元 则 保持 不 变 。 这 就 是 
所 谓 的 “ 赢 者 通 吃 ”规则 。 目 的 是 使 得 与 输入 神经 元 更 相似 的 神经 元 赢得 竞争 。 


考虑 到 每 个 输入 神经 元 i 都 会 通过 一 个 权重 wj 和 所 有 输出 神经 元 j 连 接 ， 在 该 例子 中 ， 将 会 有 一 个 权重 数组 : 


W=[w11W12W21W22W13W14W23W24] 


假设 每 个 神经 元 权重 数组 的 维度 与 输入 数据 的 维度 相同 ， 我 们 考虑 将 所 有 输入 数据 点 和 每 个 神经 元 的 权重 数组 画 在 一 个 图 中 ， 如 图 4-2 所 示 。 


图 4-2 ”输入 数据 和 权重 的 关系 


图 4-2 中 ， 圆 形 表示 数据 点 ， 正 方形 表示 神经 元 的 权重 。 可 以 看 到 ， 一 些 数据 点 离 革 些 权重 更 近 ， 昌 然 另 一 些 数据 点 离 该 权重 较 远 ， 但 是 离 其 他 权重 更 近 。 神 经 网 络 对 输入 和 权重 之 间 的 距离 进行 计算 ， 
公式 如 下 : 


这 个 公式 的 值 将 决定 一 个 神经 元 相对 于 它 的 竞争 神经 元 有 多 强 。 神 经 元 的 权重 和 输入 之 间 的 距离 越 小 ， 其 越 容易 成 为 获胜 者 。 经 过 多 次 迭代 ， 权 重 将 趋向 于 能 够 引导 神经 元 获得 胜利 的 数据 点 ， 最 终 ， 
这 些 权重 将 不 怎么 变化 ,或 者 说 其 变化 路 径 呈 锯齿 状 。 最 后 ， 当 神经 网 络 完成 训练 时 ， 图 变 成 男 一 种 形状 ， 如 图 4-3 所 示 。 


图 4-3 ”输入 数据 和 权重 的 关系 (训练 完成 ) 


可 以 看 出 ， 神 经 元 最 终 会 形成 四 周 由 点 围绕 的 中 心 体 ， 从 而 使 相应 的 神经 元 比 它 的 竞争 神经 元 更 强 。 


在 无 监督 神经 网 络 中 ， 输 出 的 个 数 是 完全 随机 的 。 有 时 只 有 某 些 神经 元 能 够 改变 它们 的 权重 ; 而 其 他 情况 下 ， 可 能 所 有 神经 元 对 相同 的 输入 都 做 出 不 同 的 反应 ， 从 而 导致 神经 网 络 永远 无 法 学 习 。 出 现 
这 种 情况 时 ， 建 议 要 么 检查 输出 神经 元 的 个 数 ， 要 么 考虑 其 他 类 型 的 非 监督 学 习 算法 。 


在 竞争 学 习 中 ， 有 如 下 两 种 可 取 的 停止 条 件 。 
“ 预先 定义 迭代 次 数 : 防止 算法 不 收敛 时 ， 程 序 一 直 执行 。 


. 权重 更 新 最 小 值 : 防止 算法 运行 时 间 超 过 必要 时 间 。 


422 APE 


这 种 类 型 的 神经 层 比较 特殊 ， 因 为 它 的 输出 和 神经 元 的 输出 不 一 定 相同 。 每 次 只 触发 一 个 神经 元 ， 因 此 需要 一 个 特殊 的 规则 来 计算 输出 。 为 此 创建 一 个 继承 自 O utputLayer 的 新 类 CompetitiveLayer, 
其 包含 两 个 新 的 属性 : winnerNeuron 和 winnerlndex。 


public class CompetitiveLayer extends OutputLayer { 
public Neuron winnerNeuron; 
public int[] winnerIndex; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


} 


这 个 神经 层 的 新 类 CompetitiveLayer 将 覆盖 calc () 方法 ， 并 增加 获取 权重 的 新 的 特殊 方法 : 


@Override 


public void calc() { 

f (input!=null && neuron!=nul11) { 

double[] result = new double [numberOfNeuronsInLayer] ; 

for(int i=0;i<numberOfNeuronsInLayer;it+) { 
neuron.get (i) .setInputs (this.input); 

// perform the normal calculation 
neuron.get (i) .calc(); 
// calculate the distance and store in a vector 
result [i]=getWeightDistance (i); 

// sets all outputs to zero 

try{ 

output.set (i,0.0); 

} catch (IndexOutOfBoundsException iobe) { 
output.add(0.0); 

} 


} 
// determine the index and the neuron that was the winner 
winnerIndex[0]=ArrayOperations.indexmin (result); 
winnerNeuron=neuron. get (winnerIndex [0]) ; 
// sets the output of this particular neuron to 1.0 
output.set (winnerIndex[0], 1.0); 


H- 


下 一 节 将 为 Kohonen 神 经 网 络 定义 Kohonen 类 。 这 个 类 中 将 会 有 一 个 名 为 distanceCalculation 的 枚 举 ， 枚 举 中 会 定义 计算 距离 的 不 同方 法 。 在 本 章 及 本 书 中 ， 距 离 计 算 都 采用 欧 氏 距离 。 
Giex 新 创建 一 个 名 为 AtrayOpetations 的 新 类 ， 它 提供 一 些 方便 操作 数组 的 基本 方法 。 例 如 ， 获 取 数 组 元 素 的 最 大 值 / 最 小 值 的 索引 ， 或 者 获取 子 数 组 等 。 


一 个 特定 神经 元 的 权重 与 输入 之 间 的 距离 ， 由 方法 getWeightDistance () 计算 而 得 ， 该 方法 在 calc () 方法 中 调用 : 


public double getWeightDistance (int neuron) { 
double[] inputs = this.getInputs(); 
double[] weights = this.getNeuronWeights (neuron) ; 
int n=this.numberOfInputs; 
double result=0.0; 
switch (distanceCalculation) { 
case EUCLIDIAN: 
// for simplicity, let's consider only the euclidian distance 
default: 
For (int i=0;i<n;i+t+) { 
result+=Math.pow (inputs [i]-weights[i],2); 
} 
result=Math.sqrt (result) ; 


} 


return result; 


方法 getNeuronWeights () 返回 与 数组 中 传递 的 索引 对 应 的 神经 元 的 权重 。 由 于 方法 实现 比较 简单 ， 为 了 节约 篇 幅 ， 想 了 解 细节 的 读者 可 以 直接 查看 源 代码 。 


4.3 ”Kohonen 自 组 织 映射 


Kohonen 自 组 织 映 射 这 一 网 络 体系 结构 是 由 芬兰 教授 Teuvo Kohonen 在 20 世 纪 80 年 代 初创 建 的 。 它 由 一 个 单 层 神经 网 络 组 成 ， 能 够 在 一 维 或 二 维 空间 提供 数据 可 视 化 。 
本 书 中 ， 我 们 将 Kohonen 神 经 网 络 作为 一 个 基本 的 竞争 层 ， 神 经 元 之 间 没 有 连接 。 本 例 中 ， 将 把 它 视 为 0 维 (OD) 。 


理论 上 ， 一 个 Kohonen 网 络 能 提供 一 个 三 维 的 数据 表示 (甚至 更 多 维 ) 。 然 而 在 像 本 书 这 种 纸 质 资料 中 ， 无 法 在 不 重 翅 某 些 数据 的 情况 下 显示 三 维 图 像 。 因 此 ， 本 书 将 只 处 理 0D、1D 和 2D 的 Kohonen 
网 络 。 


除了 传统 的 单 层 竞 争 神经 网 络 (本 书 中 指 0D Kohonen 网 络 ) 之 外 ，Kohonen 自 组 织 映射 (SOM) 还 增加 了 邻近 神经 元 的 概念 。 一 维 3OM 会 考虑 竞争 层 中 神经 元 的 索引 ， 让 邻近 神经 元 在 学 习 阶段 起 
到 相关 性 的 作用 。 


SOM 有 两 种 运作 模式 : 映射 和 学 习 。 在 映射 模式 下 ， 输 入 数据 按照 神经 元 的 相似 性 分 类 ; 而 在 学 习 模式 下 ， 输 入 数据 帮助 学 习 算法 构建 映射 。 这 个 映射 可 以 理解 为 一 个 特定 数据 集 的 降 维 表示 。 


4.3.1 将 神经 网 络 代码 扩展 至 Kohonen 


在 代码 中 ， 会 创建 一 个 继承 自 NeuralNet 的 新 类 Kohonen， 这 是 一 种 特定 类 型 的 神经 网 络 ， 它 将 使 用 类 Com petitiveLayer 作 为 输出 层 。 图 4-4 中 的 类 图 展示 了 新 类 之 间 是 如 何 排列 的 。 


OutputLayer —inputLayer:InputLayer 
—hiddenLayer: ArrayList<HiddenLayer 
—neuron:ArrayList<Neuron> 
—output:OutputLayer 
+setNextLayer(layer: NeuralLayer):void input: Array List<double> 


+setPreviousLayer(layer:NeuralLayer):void —output:ArrayList<double> 


有 +calc0:void 


+getOutputs0:double| | 
+getWeight(intlayer:int,int neuron:int,int input:int):double 


CompetitiveLayer 
—winnerNeuron:Neuron Kohonen 
-winnerindex:int[] —distanceMeasure:Kohonen.Distance 


+getWeights0:double[][] —competitiveLayer:CompetitiveLayer 


+getWeightDistance(neuron:int):double +getIndexWinnerNeuron0:int 
+calc0:void +getNeuronWeights(int neuron:int):double| | 


图 4-4 类 图 


本 章 涵盖 三 种 类 型 的 OM : 零 维 、 一 维和 二 维 。 这 些 配 置 在 enum MapDim-ension 中 定义 : 


public enum MapDimension {ZERO,ONE DIMENSION, TWO DIMENSION}; 


Kohonen 的 构造 函数 定义 了 Kohonen 神 经 网 络 的 维度 : 


public Kohonen(int numberofinputs, int numberofoutputs, 
WeightInitialization weightInitialization, int dim) { 
weightInitialization= weightInitialization; 
activeBias=false; = 
numberOfHiddenLayers=0; // no hidden layers 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
numberOfInputs=numberofinputs; 
numberOfOutputs=numberofoutputs; 
input=new ArrayList<>(numberofinputs) ; 
inputLayer=new InputLayer (this, numberofinputs) ; 


// the competitive layer will be defined according to the dimension 
passed in the argument dim 

outputLayer=new CompetitiveLayer (this, numberofoutputs, 
numberofinputs, dim) ; 

inputLayer.setNextLayer (outputLayer) ; 

setNeuralNetMode (NeuralNetMode. RUN) ; 

deactivateBias (); 


43.2 ÆSOM 


零 维 3OM 只 有 一 个 纯粹 的 竞争 层 ， 神 经 元 之 间 不 相关 。 也 不 考虑 邻 域 函 数 之 类 的 特性 。 在 学 习 阶 段 只 有 获胜 神经 元 的 权重 才 会 更 新 。 因 此 映射 只 能 由 不 连接 的 点 组 成 。 


下 面 的 代码 段 定 义 了 一 个 零 维 3OM : 


int numberOfInputs=2; 

int numberOfNeurons=10; 

Kohonen kn0 = new Kohonen (numberOfInputs, numberOfNeurons, new 
UniformInitialization(-1.0,1.0),0); 


注意 构造 函数 最 后 一 个 参数 dim 中 传 入 的 0。 


4.3.3 一 维 SOM 


一 维 SOM 结 构 类 似 上 一 节 所 介绍 的 网 络 : 竞争 学 习 ， 在 输出 神经 元 中 添加 了 邻近 神经 元 ， 结 构图 如 图 4-5 所 示 。 
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图 4-5 ”一 维 SOM 结 构图 
注意 ， 输 出 层 的 每 个 神经 元 都 有 一 到 两 个 邻近 神经 元 。 同 理 ， 和 触发 最 大 值 的 神经 元 会 更 新 它 的 权重 ， 但 是 在 一 维 SOM 中 ， 邻 近 神 经 元 也 会 以 一 个 较 小 的 速率 更 新 它们 的 权重 。 


假设 在 一 维 情况 下 所 有 输出 神经 元 都 必须 遵循 某 种 组 织 方式 或 者 路 径 ， 那 么 由 于 邻近 神经 元 的 影响 ， 它 们 能 把 激活 区 扩展 到 映射 的 更 广 区 域 。 邻 域 函 数 也 允许 对 输入 空间 的 属性 进行 更 好 的 探索 。 因 为 
它 强制 神经 网 络 保持 神经 元 之 间 的 连接 ， 所 以 除 形成 聚 类 外 ， 还 可 以 获得 更 多 的 信息 。 


在 输入 数据 点 和 神经 权重 形成 的 关系 图 中 ， 可 以 看 到 神经 元 形成 的 路 径 ， 如 图 4-6 所 示 。 


根据 输出 神经 元 之 
T 间 的 链接 ， 在 二 维 图 
中 绘 届 输 出 权重 


图 4-6 ”神经 元 路 径 


为 简单 起 见 ， 在 图 4-6 中 只 绘制 了 输出 权重 ， 以 演示 如 何在 二 维 空间 (本 例 中 ) 设计 映射 。 训 练 经 过 多 次 迭代 后 ， 神 经 网 络 会 收敛 到 能 表达 所 有 数据 点 的 最 终 形 状 。 如 果 使 用 这 种 结构 ， 一 组 特定 数据 集 
可 使 Kohonen 网 络 在 空间 中 设计 成 另 一 种 形状 。 这 是 降 维 的 一 个 很 好 的 例子 ， 在 使 用 自 组 织 映射 后 ， 一 个 多 维 数据 集 能 生成 表达 整个 数据 集 的 一 个 单行 (在 一 维 SOM 中 ) 。 


要 定义 一 维 SOM， 需 要 给 构造 消 数 的 最 后 一 个 参数 dim 传 递 1: 


Kohonen kn1 = new Kohonen (numberOfInputs, numberOfNeurons, new 
UniformInitialization(-1.0,1.0),1); 


43.4 二 维 SOM 


二 维 SOM 是 最 常用 的 结构 ， 它 以 一 种 可 视 化 的 方式 展示 了 Kononen 神 经 网 络 的 功能 。 输 出 层 是 一 个 包含 Mx N 个 神经 元 的 矩阵， 神经 元 之 间 像 网 格 一 样 互 相连 接 ， 如 图 4- 7 所 示 。 


在 二 维 SOM 中 ， 每 个 神经 元 都 有 4 个 邻近 神经 元 (如 正方 形 结构 中 ) ， 当 然 ， 在 一 些 表 示 中 可 能 也 考虑 对 角 神 经 元 ， 这 样 每 个 神经 元 就 有 8 个 邻近 神经 元 。 六 边 形 的 表示 也 很 有 用 。 看 一 个 示例 ， 在 二 维 
图 中 (考虑 两 个 输入 变量 ) 绘制 出 的 3x 3SOM 图 的 形状 ， 如 图 4-8 所 示 。 
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图 4-7 二 维 Kohonen 映 射 


图 4-8 3X3SOM 图 在 二 维 空间 中 的 展示 
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图 4-9 ”稠密 数据 集 
首先 ， 未 经 训练 的 Kohonen 网 络 展 示 出 一 种 奇怪 且 糟 糕 的 形状 。 权 重 的 形成 仅 仪 依赖 于 即将 提供 给 SOM 的 输入 数据 。 下 面 查 看 映射 是 如 何 自 组 织 的 。 


* 假设 有 如 图 4-9 所 示 的 稠密 数据 集 。 


. 通过 应 用 SOM， 二 维 形 状 逐 渐 改 变 ， 直 到 它 达 到 最 终结 构 ， 渐 变 过 程 如 图 4-10 所 示 。 


图 4-10 SOM 应 用 过 程 


二 维 SOM 的 最 终 形状 不 总 是 一 个 完美 的 正方 形 ， 反 而 像 是 根据 数据 集 绘制 的 形状 。 邻 域 函 数 是 学 习 过 程 中 的 一 个 重要 组 件 ， 因 为 它 使 图 4-10 中 的 邻近 神经 元 相 接 近 ， 且 使 结构 移动 到 一 个 更 组 织 化 的 构 
形 中 。 


ta 图 4-10 中 的 网 格 只 是 一 种 SOM 图 的 常用 表述 。SOM 图 的 显示 还 有 很 多 其 他 的 方法 ,例如 0U 适 阵 法 和 聚 类 边界 。 


43.5 ”2D 竞争 层 


为 了 更 好 地 用 网 格 的 形式 表达 2D 竞 争 层 ,创建 一 个 继承 自 CompetitiveLayer 类 的 新 类 CompetitiveLayer2D。 在 这 个 类 中 ， 可 以 用 Mx N 神 经 元 网 格 的 形式 来 定义 神经 元 的 个 数 : 


public class CompetitiveLayer2D extends CompetitiveLayer { 

protected int sizeMapX; // neurons in dimension X 

protected int sizeMapY; // neurons in dimension Y 

protected int[] winner2DIndex;// position of the neuron in grid 

public CompetitiveLayer2D (NeuralNet _neuralNet, intnumberOfNeuronsx, 
int numberOfNeuronsY, int numberOfInputs) { 
super (_ neuralNet, numberOfNeuronsx*numberOfNeuronsY, 
numberOf Inputs) ; 
this.dimension=Kohonen.MapDimension.TWO DIMENSION; 
this.winnerIndex=new int[1]; ~ 
this.winner2DIndex=new int[2]; 
this.coordNeuron=new int [numberOfNeuronsxX*numberOfNeuronsyY] [2]; 
this.sizeMapX=numberOfNeuronsxX; 
this.sizeMapY=numberOfNeuronsY; 
// each neuron is assigned a coordinate in the grid 
for(int i=0;i<numberOfNeuronsyY;it+) { 
for(int j3=0;j3<numberOfNeuronsX; j++) { 
coordNeuron [i*numberOfNeuronsX+}j ] [0]=i; 
coordNeuron [i*numberOfNeuronsX+}j ] [1]=j; 

} 
} 


2D 竞 争 层 中 的 坐标 系 类 似 于 笛 卡 儿 坐 标 。 每 个 神经 元 都 在 网 格 中 分 配 一 个 位 置 ， 索 引 从 0 开始 ( 见 图 4-11) 。 


图 4-11 2D 竞 争 层 坐 标 系 


上 述 例子 中 ，12 个 神经 元 排列 在 一 个 3x4 的 网 格 中 。 该 类 的 另 一 个 特点 是 可 以 通过 网 格 中 的 位 置 索引 到 神经 元 。 这 使 我 们 能 够 获取 神经 元 〈 及 权重 ) 的 子 集 ， 比 如 网 格 中 特定 的 整 行 或 整 列 : 


public double[] getNeuronWeights (int x, int y) { 
double[] nweights = neuron.get (x*sizeMapXt+y) .getWeights () ; 
double[] result = new double[nweights.length-1]; 

for(int i=0;i<result.length;it+) { 
result [i]=nweights [i]; 


} 


return result; 


} 


public double[][] getNeuronWeightsColumnGrid(int y) { 
double[][] result = new double[sizeMapY] [numberOfInputs] ; 
for(int i=0;i<sizeMapY;it+) { 
result [i]=getNeuronWeights (1,y); 
} 
return result; 


} 


public double[][] getNeuronWeightsRowGrid(int x) { 
double[][] result = new double[sizeMapX] [numberOfInputs] ; 
for(int i=0;i<sizeMapXx;it+) { 
result [i]=getNeuronWeights (x,1); 
} 
return result; 


} 


43.6 SOM 学 习 算 ; 


自 组 织 映 射 的 目标 是 将 在 输出 上 触发 相同 响应 的 数据 点 聚集 在 一 起 ， 来 实现 对 输入 数据 的 分 类 。 开 始 时 ， 未 经 训练 的 网 络 产生 随机 输出 ， 但 是 随 着 更 多 实例 的 出 现 ， 神 经 网 络 会 识别 出 那些 激活 频率 更 
高 的 神经 元 ， 进 而 改变 它们 在 SOM 输 出 空间 中 的 位 置 。 该 算法 主要 基于 竞争 学 习 ， 这 意味 着 一 个 获胜 神经 元 〈 即 最 佳 匹 配 单元 ， 或 BMU) 将 会 更 新 它 的 权重 及 其 邻近 神经 元 的 权重 。 


SOM 网 络 的 学 习 过 程 如 图 4-12 所 示 。 


定义 停止 条 件 : 开始 训练 ， 
迭代 次 数 和 权重 更 新 delta A At 


对 每 个 输入 记录 ， 
计算 到 每 个 神经 元 
权重 器 量 的 距 高 
定义 SOM 架 构 : 


输入 和 输出 的 数量 | 
选择 距离 较 短 的 


神经 元 作为 BMU 


` hA. 本 3 silat DAZ 
MOD SOM 训 | 练 


图 4-12 SOM 网 络 学 习 过 程 
这 种 学 习 方式 有 点 类 似 于 第 2 章 及 第 3 章 的 算法 。 三 个 主要 的 不 同 点 在 于 : 通过 距离 确定 BMU 的 方式 ， 权 重 更 新 规则 ， 及 是 否 存在 误差 度量 。 距 离 意味 着 相近 的 点 应 该 产生 相似 的 输出 ， 因 此 在 这 里 ， 
与 数据 点 距离 较 短 的 神经 元 确定 最 低 BMU。 为 了 简单 起 见 ， 本 书 中 的 距离 计算 将 使 用 欧 氏 距离 。 


输入 到 权重 的 距离 通过 getWeightDistance () 方法 计算 ,该 方法 属于 特定 神经 元 i (参数 神经 元 ) 的 CompetitiveLayer 类 。 前 面 已 对 该 方法 进行 描述 。 


4.3.7 SBIRRI — Piven 


邻 域 函数 9 (u, v, s, t) 实现 权重 更 新 规则 ， 该 方法 声明 了 邻近 神经 元 u (BMU 单 元 ) 与 神经 元 v 之 间 的 距离 。 切 记 ， 在 多 维 SOM 中 ，BM U 神 经 元 与 它 的 邻近 神经 元 同步 更 新 。 这 个 更 新 也 依赖 近 令 


半径 ， 它 考虑 了 迭代 次 数 sS 和 基准 周期 t: 


oe 
thi Nu . Ny 


© (u,v, S,t ) =exp 
20° (s4 


I, dy ，v 是 网 格 中 神经 元 u 和 神经 元 v 之 间 的 距离 。 半 径 计算 公式 如 下 : 


这 是 初始 半径 。 和 迭代 次 数 (s) 和 基准 周期 (t) 通过 影响 近邻 半径 来 影响 近邻 神经 元 。 这 很 有 用 ， 因 为 在 训练 开始 阶段 ， 权 重 通常 是 随机 初始 化 的 ， 所 以 更 新 频率 更 高 。 随 着 训练 过 程 的 进行 ， 更 新 频 
率 会 减 小 ， 否 则 神经 网 络 将 持续 改变 它 的 权重 是 永远 不 会 收敛 。 


邻 域 函 数 和 神经 元 距离 计算 国 数 在 类 CompetitiveLayer 中 实现 ， 或 者 通过 履 盖 类 CompetitiveLayer2D 来 实现 : 


CompetitiveLayer CompetitiveLayer2D 
public double neighborhood(int u, int 
We ant @eoemis-b]f 
double result; 


switch (dimension) { 


case ZERO: @Override 
1f(u==v} result=1.0; public double neighborhood(int u, int 
else result=0.0-; v, int s,1int t)ft 
break; double result; 
case ONE DIMENSION: double exponent=- (neuronDistance 
default: (u,v) /ne1ghborhoodRadius (s,t)); 
double exponent=- (neuron-Dis- result=Math.exp (exponent ) ; 
tance return result: 
(U5 ei } 
result=Math.exp (exponent) ; 
| 
return result: 
j 
@Override 


public double neuronDistance (int 
public double neuronDistance(int u; |u; int v) 


int v) | 
{ double distance=Math.pow(coord 
return Math.abs (coordNeuron [u] [0]- Neuron [u] [0] -coordNeuron[w] [0], 2) 
coordNeuron[v][0]); ee nu] 
} [1]-coordNeuron[w] [1], A 
return eve 
} 


这 两 个 类 的 近邻 半径 函数 是 相同 的 。 


public double neighborhoodRadius (int s,int 七 ) { 
return this.initialRadius*Math.exp (- ( (double) s/ (double) t) ) ; 
} 


43.8 ”学 习 率 


随 着 训练 的 进行 ， 学 习 率 a (s, t) 也 变 得 越 来 越 小 : 


a (s, t) =agexp (-s/t) 


参数 a0 是 初始 学 习 率 。 最 后 综合 考虑 邻 域 函 数 和 学 习 率 ， 权 重 a0 更 新 规则 如 下 : 


AW, = = O(i PTAA a(s,t)| X, -W 


这 里 Xk 是 第 k 个 输入 ，Wk 是 连接 第 k 个 输入 和 第 j 个 输出 的 权重 。 


43.9 “竞争 学 习 的 一 个 新 类 


既然 已 经 有 了 一 个 竞争 层 、 一 个 Kohonen 神 经 网 络 ， 并 且 定 义 了 邻 域 函 数 ， 现 在 就 为 竞争 学 习 创 建 一 个 新 类 。 这 个 类 继承 自 LearningAlgorithm ， 学 习 时 将 接收 Kohonen 对 象 作为 参数 ， 类 图 如 图 4-13 
所 示 。 


LearningAlgoritthm Neural Dataset 


—neuralNet:NeuralNet —numberOfInputs: int 
—learningMode: LearningMode —numberOfOutputs:int 
—maxEpochs:int —numberOfRecords:int 
—epoch:int —inputData:NeurallnputData 


~LearningRate:double —output Data:NeuralOutputData 
—trainingDataSet:Neural DataSet ~neuralNet:NeuralNet 


+train0:void +getInputRecord(int 1:int):double| | 
+forward0: void +getOutputRecord(int 1:int):double{ | 
+showErrorE volution0: void +getlTargetOutputR ecord(int 1:1nt):double| | 


CompetitiveLeaming 
—currentRecord:int 
—new Weights:ArrayList<ArrayList<Double>> 
—curr Weihghts:ArrayList<ArrayList<Double>> 
—initialLearningRata:double 
—referenceEpoch:int 
—index WinnerNeurouTrain:int] | 
+getLearningRate0:double 
+calcNewWeinght(int layer:int,int input: int,int neuron:int):void 


+applyNew Weights0:void 


A413 ”竞争 学 习 新 类 类 图 


正如 第 2 章 所 介绍 的 那样 ， 一 个 LearningAlgorithm 对 象 会 基于 一 个 神经 数据 集 进行 训练 。CompetitiveLearning 对 象 将 会 继承 这 个 属性 ， 同 时 它 也 实现 了 新 的 方法 和 属性 来 实现 竞争 学 习 过 程 : 


public class CompetitiveLearning extends LearningAlgorithm { 
// indicates the index of the current record of the trainingdataset 
private int currentRecord=0; 
// stores the new weights until they will be applied 
private ArrayList<ArrayList<Double>> newWeights; 
// saves the current weights for update 
private ArrayList<ArrayList<Double>> currWeights; 
// initial learning rate 
private double initialLearningRate = 0.3; 
// default reference epoch 
private int referenceEpoch = 30; 
// saves the index of winner neurons for each training record 
private int[] indexWinnerNeuronTrain; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


与 之 前 算法 相反 ， 该 算法 中 学 习 率 在 训练 过 程 中 会 发 生变 化 ， 它 将 通过 方法 getLearningRate () 返回 : 


public double getLearningRate (int epoch) { 
double exponent= (double) (epoch) / (double) (referenceEpoch) ; 
return initialLearningRate*Math.exp (-exponent) ; 


} 


getLearningRate () 在 方法 calcWeightUpdate () 中 调用 : 


@Override 
public double calcNewWeight (int layer,int input,int neuron) throws 
NeuralException { 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
Double deltaWeight=getLearningRate (epoch) ; 
double xi=neuralNet.getInput (input) ; 
double wi=neuralNet.getOutputLayer () .getWeight (input, neuron); 
int wn = indexWinnerNeuronTrain[currentRecord] ; 
CompetitiveLayer cl = ((CompetitiveLayer) (((Kohonen) (neuralNet)). 
getOutputLayer())); 


switch (learningMode) { 
case BATCH: 
case ONLINE: // The same rule for batch and online modes 
deltaWeight*=cl.neighborhood(wn, neuron, epoch, referenceEpoch) 
* (xi-wi); 


break; 
} 
return deltaWeight; 


train () 方法 也 适用 于 竞争 学 习 : 


@Override 


public void train() throws Neurall 
// http://www. hzcourse.com/reso 


Exception { 
urce/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/. . 


epoch=0; 
int k=0; 
forward (); 


currentRecord=0; 
forward (currentRecord) ; 
while (!stopCriteria()) { 


// first it calculates the new weigh 


for(int j=0;j<neuralNet.getNumberOfO 


for(int i=0;i<neuralNet.getNumberOf] 


ts for each neuron and input 
utputs () j++) { 


Inputs () ;i++) { 


double newWeight=newWeights.get (j) .get (i); 


newWeights.get (j).set(i, 


} 
} 


newWeight 


t+calcNewWeight (0,i,j)); 


// the weights are promptly updated in the online mode 


switch (learningMode) { 
case BATCH: 
break; 
case ONLINE: 
default: 
applyNewWeights () ; 


} 


currentRecord=++k; 


if (k>=trainingDataSet.numberO 


fRecords) { 
// for the batch mode, the new weights are applied once an epoch 
if (learningMode==LearningAlgorithm. LearningMode.BATCH) { 


applyNewWeights () ; 


k=0; 
currentRecord=0; 
epoch++; 

forward (k); 


// http://www. hzcourse.com/resource/readl 


appliedNewWeights () 方法 的 实现 


执行 时 间 : 运行 SOM 应 用 程序 。 现 在 开始 动手 实践 并 用 java 实现 Kohonen 神 经 网 络 。 自 组 织 映 射 有 许多 应 用 ， 其 中 大 多 
地 可 能 性 较 大 。 聚 类 的 真正 优点 是 我 们 无 顷 关 心 输入 /输出 的 天 系 ， 只 需 将 注意 力 集中 在 输入 数据 上 即 可 。 我 们 将 在 第 7 章 客户 画像 聚 类 中 探 


4.3.10 SOM 可 视 化 


本 节 将 介绍 绘图 功能 。 绘 图 可 以 在 Java 中 通 


public class Chart { 


// title of the chart 
private String chartTitle; 


类 似 于 第 3 章 介绍 的 方法 ， 区 别 在 于 该 方法 没有 偏 置 ， 且 只 有 一 个 输出 层 。 


甬 过 免费 包 JFreeChart (可 以 从 http://www.jfree.org/jfreechart/ 下 载 ) 来 实现 。 


// datasets to be rendered in the chart 


private ArrayList<xXYDataset> dataset = new ArrayList<XYDataset>(); 


// the chart object 
private JFreeChart jfChart; 
// colors of each dataseries 


private ArrayList<Paint> seriesColor = 
// types of series (dots or lines for n 


public enum SeriesType {DOTS,L 


NES}; 


// collections of types for each series 
public ArrayList<SeriesType> seriesTypes = newArrayList<SeriesType> (); 


new ArrayList<>(); 
ow) 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/. . 


Book?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 


这 个 包 附 在 本 章 的 源 代码 中 。 所 以 ， 


7] http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 


这 个 类 实现 了 绘制 折线 图 和 散 点 图 的 方法 。 它 们 之 间 的 区 别 在 于 : 折线 图 将 所 有 数据 序列 都 放 人 在 x 轴 (通常 是 时 间 轴 ) ， 
坐标 轴 都 相关 的 二 维 平面 上 。 图 4-14 (折线 图 ) 和 图 4-15 ( 散 点 图 ) 生动 地 展示 了 它们 的 区 别 ， 图 下 为 其 实现 代码 。 


int numberOfPoints=10; 
double[][] dataSet = { 
{1.0, 1.0},{2.0,2.0}, {3.0,4.0}, 
{7.0,64.0},{8.0,128.0}}; 

String[] seriesNames = {"Line P] 


O 
Paint[] seriesColor = {Color. BLACK}; 
t", dataSet, seriesNames, 0, 


Chart chart = new Chart ("Line P] 


{4+.0, 8. 


O 
seriesColor, Chart.SeriesType.LINBE) ; 


O},{5.0,16.0}, {6.0,32.0}, 


ChartFrame frame = new ChartFrame("Line Plot", chart.linePlot("XAxis", "Y 


Axis")); 
frame .pack () ; 
frame.setVisibile (true) ; 


里 每 个 数据 序列 都 是 一 


数 都 集中 在 聚 类 、 数 据 抽 象 以 及 降 维 领 域 。 但 是 
讨 聚 类 应 用 的 一 个 示例 。 


条 直线 ;而 对 于 散 点 图 


是 聚 类 应 用 是 最 有 趣 的 ， 因 为 落 


设计 一 个 名 为 Chart 的 类 : 


， 是 将 数据 点 显示 在 一 个 与 两 个 


| S| Line plot 一 口 x 
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2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 


int numberOfInputs=2; 

int numberOfPoints=100; 

double[] [] rndDataSet = 
RandomNumberGenerator.GenerateMatrixBetween (numberOfPoints, 
numberOfInputs, -10.0, 10.0); 
String[] seriesNames = {"Scatter Plot"}; 
Paint[] seriesColor = {Color.WHITE}; 
Chart chart = new Chart ("Scatter Plot", rndDataSet, seriesNames, 0,seriesColor, 
Chart.SeriesType. DOTS) ; 

ChartFrame frame = new ChartFrame ("Scatter Plot", chart.scatterPlot ("XAxis", 

"yY Axis") ) ; 

frame.pack(); 
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这 里 压缩 了 图 的 生成 代码 (方法 linePlot () 和 scatterPlot () ) 。 如 需 查 看 完整 实现 代码 ， 读 者 可 以 阅读 文件 Chart.java。 


4.3.11 ”绘制 训练 数据 集 和 神经 元 权重 的 2D 图 


既然 月 了 绘图 方法 ， 就 绘制 数据 集 和 神经 元 权重 。 任 何 二 维 数据 集 都 能 以 上 一 节 展 示 的 方式 进行 绘制 。 为 了 绘制 权重 ， 需 要 用 以 下 代码 获取 Kohonen 神 经 网 络 的 权重 : 


CompetitiveLayer cl = ((CompetitiveLayer) (neuralNet. 
getOutputLayer())); 
double[][] neuronsWeights = cl.getWeights(); 


在 竞争 学 习 中 ， 我 们 能 直观 地 看 到 权重 是 如 何在 数据 集 空间 中 移动 的 。 所 以 ， 将 添加 一 个 方法 showPlot2DData () 来 绘制 数据 集 和 权重 ， 添 加 一 个 属性 plot2DData 用 于 保存 类 ChartFrame 的 引用 ， 
添加 一 个 标志 show2DData 来 决定 是 否 每 次 运 代 都 显示 图 像 


protected ChartFrame plot2DData; 
public boolean show2DData=false; 
public void showPlot2DData () { 
double[][] data= ArrayOperations. arrayListToDoubleMatrix (trainingDataSet 
.inputData.data) ; 
String[] seriesNames = {"Training Data"}; 
Paint[] seriesColor = {Color.WHITE}; 
Chart chart = new Chart ("Training epoch n°"+String.valueOf (epoch) +"", data 
,seriesNames, 0, seriesColor, Chart.SeriesType. DOTS) ; 
if (plot2DData ==nul1) { 
plot2DData = new ChartFrame ("Training", chart.scatterPlot ("X","Y")); 
} 
Paint[] newColor={Color.BLUE}; 
String[] neuronsNames={""}; 
CompetitiveLayer cl = ((CompetitiveLayer) (neuralNet.getOutputLayer())); 
double[][] neuronsWeights = cl.getWeights(); 
switch (cl.dimension) { 
case TWO DIMENSION: 
ArrayList<double[][]> gridWeights = ((CompetitiveLayer2D) (cl)). 
getGridWeights (); 
for(int i=0;i<gridWeights.size();it+) { 
chart.addSeries (gridWeights.get (1),neuronsNames, 0,new-Color, 
Chart.SeriesType. LINES) ; 


a 


} 
break; 
case ONE DIMENSION: 
neuronsNames [0]="Neurons Weights"; 
chart.addSeries (neuronsWeights, neuronsNames, 0, newColor,Chart. 
SeriesType. LINES) ; 
break; 
case ZERO: 
neuronsNames [0]="Neurons Weights"; 
default: 
chart.addSeries (neuronsWeights, neuronsNames, 0,newColor, Chart. 
SeriesType.DOTS) ; 
} 


} 


plot2DData.getChartPanel () .setChart (chart.scatterPlot("X", "Y")); 


这 个 方法 将 在 每 个 迭代 结束 时 被 train () 方法 调用 。 属 性 sleep 决 定 了 当前 迭代 产生 图 像 被 下 次 迭代 产生 的 图 像 蔡 代 前 的 显示 时 长 (毫秒 ) 。 


H- 


f (show2DData) { 
showPlot2DData () ; 
if (sleep!=-1) 
try{ Thread.sleep(sleep); } 
catch (Exception e) {} 


4.3.12 ”测试 Kohonen 学 习 


现在 定义 一 个 Kohonen 网 络 ， 同 时 看 它 是 如 何 运 行 的。 首先 , 创建 一 个 零 维 的 Kohonen:: 


RandomNumberGenerator.seed=0; 

int numberOfInputs=2; 

int numberOfNeurons=10; 

int numberOfPoints=100; 

// create a random dataset between -10.0 and 10.0 

double[][] rndDataSet = RandomNumberGenerator. GenerateMatrixBetween (n 

umberOfPoints, numberOfInputs, -10.0, 10.0); 

// create the Kohonen with uniform initialization of weights 

Kohonen knO = new Kohonen (numberOfInputs, numberOfNeurons, new 

UniformInitialization(-1.0,1.0),0); 

// add the dataset to the neural dataset 

NeuralDataSet neuralDataSet = new NeuralDataSet (rndDataSet, 2) ; 

// create an instance of competitive learning in the online mode 

CompetitiveLearning complrn=new CompetitiveLearning (kn0,neuralDataSet, 

LearningAlgorithm. LearningMode.ONLINE) ; 

// sets the flag to show the plot 

complrn.show2DData=true; 

try{ 

// give names and colors for the dataset 
String[] seriesNames = {"Training Data"}; 
Paint[] seriesColor = {Color.WHITE}; 
// this instance will create the plot with the random series 
Chart chart = new Chart ("Training", rndDataSet, seriesNames, 0,seriesColor) ; 
ChartFrame frame = new ChartFrame("Training", chart.scatterPlot ("X","Y")); 

frame .pack () 

frame.setVisible (true) ; 
// we pass the reference of the frame to the complrn object 
complrn.setPlot2DFrame (frame) ; 
// show the first epoch 
complrn.showPlot2DData () ; 
// wait for the user to hit an enter 
System. in.read() ; 
// training begins, and for each epoch a new plot will be shown 
complrn.train(); 
} catch (Exception ne) { 


Ne 


运行 这 段 代 码 ， 得 到 第 一 幅 图 ， 如 图 4-16 所 示 。 
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随 着 训练 逐步 进行 ， 权 重 开始 向 输入 数据 空间 分 散 ， 直 到 最 后 均匀 分 布 进而 收敛 ， 如 图 4-17 所 示 。 
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图 4-17 ” 零 维 Kohonen 收 化 的 过 程 


对 于 一 维 Kohonen， 尝 试 一 些 更 有 趣 的 东西 。 通 过 带 有 随机 噪声 的 余弦 函数 来 创建 数据 集 : 


int numberOfPoints=1000; 

int numberOfInputs=2; 

int numberOfNeurons=20; 

double[][] rndDataSet; 

for (int i=0;i<numberOfPoints;i++) { 


rndDataSet [i] 
] [0] +=RandomNumberGenerator.GenerateNext () ; 


rndDataSet 


[ 

[i 
rndDataSet [i] [1 

[i] [1]+=RandomNumberGenerator.GenerateNext () *400; 


rndDataSet 


[0]=i; 


[ 
[1]=Math.cos (i/100.0) *1000; 
[ 


Kohonen kn1 = new Kohonen (numberOfInputs, numberOfNeurons, new 
UniformInitialization(0.0,1000.0),1); 


通过 运行 前 面 的 同一 段 代 码 ， 仪 仅 将 其 中 的 对 象 kn0 改 成 kn1， 得 到 一 条 连接 所 有 权重 的 线 ， 如 图 4-18 所 示 。 
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随 着 训练 的 进行 ， 这 些 线 逐 渐 收 敛 于 数据 波形 ， 如 图 4-19 所 示 。 
如 果 你 想 改变 初始 学 习 率 、 最 大 和 迭代 次 数 或 者 其 他 参数 ， 参 见 Kohonen1DTest.java 文 件 。 


最 后 ， 查 看 二 维 Kohonen 图 。 实 现代 码 将 会 有 一 点 不 同 ， 因 为 这 里 不 再 给 出 神经 元 的 数量 ， 而 是 告诉 Kohonen 构 造 函 数 神经 网 格 的 维度 。 
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图 4-19 ”一 维 Kohonen 收 敛 的 过 程 
这 里 使 用 的 数据 集 将 会 是 一 个 带 有 随机 噪声 的 点 集 : 


int numberOfPoints=1000; 
for (int 1i=0;i<numberOfPoints;i++) { 


[ 
rndDataSet [i] [0]+=RandomNumberGenerator.GenerateNext () *50; 
rndDataSet [i] [1] *=Math.cos (i); 
rndDataSet [i] [1]+=RandomNumberGenerator.GenerateNext () *50; 


现在 构造 这 个 二 维 的 Kohonen : 


int neuronsGridX=12 

int neuronsGridY=12; 

Kohonen kn2 = new Kohonen (numberOfInputs, neuronsGridxX, neuronsGridY, new 
GaussianInitialization(500.0,20.0)); 


int numberOfInputs=2; 


注意 ， 构 造 Gaussianlnitialization 所 用 的 均值 参数 是 500.0， 标 准 差 参 数 是 20.0， 也 就 是 说 ， 权 重 将 在 位 置 (500.0，500.0) 生成 ， 而 数据 则 以 (50.0, 50.0) 为 中 心 ， 如 图 4-20 所 示 。 


现在 开始 训练 神经 网 络 。 第 一 次 迭代 后 ， 神 经 元 权重 迅速 向 圆 形 移动 ， 如 图 4-21 所 示 。 
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图 4-21 二 维 Kohonen 收 敛 的 过 程 


训练 结束 时 ， 大 部 分 权重 都 将 分 布 在 圆 上 ， 而 在 圆 的 中 心 会 有 一 块 空白 区 域 ， 因 为 网 络 将 会 被 完全 拉 伸 ， 如 图 4-21 所 示 。 


44 本 章 小 结 


本 章 介绍 了 如 何在 神经 网 络 上 运用 无 监督 学 习 算法 。 我 们 为 此 提供 了 一 种 新 型 的 、 合 适 的 架构 : Kohonen 自 组 织 映射 。 已 经 证 明 无 监督 学 习 与 监督 学 习 方 法 一 样 强大 ， 因 为 它们 只 关注 输入 数据 ， 而 无 
须 考虑 输入 -输出 之 间 的 映射 。 我 们 已 经 直观 地 看 到 ， 训 练 算 法 如 何 通 过 驱动 权重 靠近 输入 数据 ， 近 而 达到 聚 类 和 降 维 的 目的 。 除 此 之 外 ，Kohonen SOM 也 能 对 聚 类 后 的 数据 进行 分 艇 ， 因 为 每 个 神经 元 都 
将 对 一 组 特定 的 输入 提供 更 好 的 响应 。 


本 章 介绍 日 常生 活 中 神经 网 络 的 一 个 常见 应 用 : 预报 天 气 。 我 们 将 分 析 针 对 该 问题 设计 神经 网 络 解决 方案 的 整个 过 程 : 包括 如 何 选 择 神经 架构 和 神经 元 的 数量 ， 以 及 如 何 进行 数据 选择 和 数据 预 处 理 。 
然后 介绍 处 理 时 序数 据 的 技术 ， 神 经 网 络 将 依据 时 序数 据 使 用 Java 语 言 对 天 气 变化 进行 预报 。 本 章 将 讨论 以 下 主题 : 


- 神经 网 络 回归 问题 
:加载 /选择 数据 


` 输入 /输出 变量 


Jatt 


+ 神经 网 络 实验 设计 


5.1 神经 网 络 用 于 回归 问题 
到 目前 为 止 ， 已 经 介绍 了 很 多 神经 网 络 的 实现 和 架构 ， 所 以 现在 开始 学 习 更 复杂 的 实例 。 神 经 网 络 在 预测 方面 的 能 力 是 惊人 的 ， 因 为 它 可 以 以 这 样 一 种 方式 从 历史 数据 中 学 习 : 根据 输入 数据 调整 神经 
连接 ， 以 产生 和 输入 数据 近似 的 结果 。 例 如 : 对 于 一 个 给 定 的 状况 (起因 ) ， 会 产生 一 个 后 果 (BR) ， 这 些 都 用 数据 表示 ; 神经 网 络 能 够 学 习 出 将 状况 映射 到 后 果 (或 起 因 到 结果 ) 的 非 线 性 函数 。 
预测 和 回归 问题 是 神经 网 络 应 用 的 一 个 有 趣 范 畴 。 查 看 天 气 数 据 的 例子 ， 见 表 5-1。 


表 5-1 天 气 数 据 


日 期 平均 气温 JE 5E 湿度 降水 风速 
7A 34.8 22 880mbar ” 66% 16mm 5m/s 
FER: SIE 88 mbar 78% 3mm 3m/s 
8 月 2 日 25C 884mbar 65% Omm 4m/s 
8 月 3 日 A i 882mbar 53% 0mm 3m/s 
11H 114 32°6 890mbar 64% 0mm 2m/s 


(1)1 mbar=100Pa. 


编辑 注 


表 5-1 给 出 一 个 包含 5 个 变量 的 例子 ， 这 是 一 个 从 假想 的 城市 搜集 来 的 天 气 数据 。 假 设 每 个 变量 都 包含 一 组 有 时 间 顺 序 的 数据 列 ， 也 就 是 一 个 时 序 结构 。 因 此 ， 在 一 个 时 序 图 中 ， 就 可 以 看 到 它们 如 何 随 
着 时 间 而 变化 ， 如 图 5-1 所 示 。 
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图 5-1 天 气 变 化 时 序 图 


如 图 5-1 所 示 ， 时 序 之 间 的 关系 代表 某 城市 的 天 气动 态 。 我 们 想 要 神经 网 络 来 学 习 这 种 动态 表示 ， 就 需要 以 神经 网 络 能 够 处 理 的 方式 来 构造 这 些 数 据 ， 即 确定 哪些 数据 序列 (变量 ) 是 起 因 ， 哪 些 是 后 
果 。 动 态 系统 中 有 些 变量 的 值 取决 于 于 以 往 数据 ， 因 此 神经 网 络 应 用 不 仅 取决 于 当前 情况 ， 还 取决 于 过 去 。 这 非常 重要 ， 因 为 历史 事件 影响 着 现在 和 未 来 。 


只 有 构造 好 数据 后 ， 才 能 构造 神经 网 络 ， 即 输入 、 输 出 和 隐藏 节点 。 然 而 ， 还 有 许多 其 他 架构 可 能 适合 预测 问题 ， 比 如 径 向 基 函 数 和 反馈 网 络 等 。 本 章 主要 讨论 一 个 基于 反 向 传播 学 习 算 法 的 前 馈 多 层 
感知 机 ， 并 演示 如 何 简单 利用 这 个 架构 预测 天 气 变 化 。 另 外 ， 如 果 数 据 选 择 良 好 ， 这 个 结构 具有 很 好 的 泛 化 能 力 ， 且 设计 过 程 复杂 性 较 小 。 


预测 过 程 中 神经 网 络 的 整体 设计 过 程 如 图 5-2 所 示 。 


4. 训 练 神经 网 络 
5. 验 证 神经 网 络 


图 5-2 ”神经 网 络 整体 设计 过 程 


如 果 神 经 网 络 验证 失败 (步骤 5) ， 通 常会 再 定义 一 个 新 的 结构 (步骤 3) ， 虽 然 有 时 候 步 骤 1 和 步骤 2 会 重复 执行 。 图 5-2 中 的 每 个 步骤 都 将 在 本 章 下 一 节 讨论 。 


5.2 加载/ 选择 数据 


首先 ， 需 要 将 原始 数据 加 载 到 Java 环 境 中 。 加 载 进来 的 数据 可 以 存储 在 各 种 数据 源 中 ， 从 文本 文件 到 结构 化 数据 库 系统 。 一 种 简单 而 常用 的 类 型 是 CSV (逗号 分 隔 值 ) 。 此 外 ， 在 提供 给 神经 网 络 之 
前 ， 还 需要 对 这 些 数 据 进 行 数据 选择 和 数据 转换 。 


5.2.1 创建 辅助 类 


为 了 处 理 这 些 任务 ， 需 要 包 edu.packt.neuralnet.data 中 的 一 些 辅 助 类 。 第 一 个 是 Load Csv 类 ， 用 于 读 取 CSV 文 件 : 


public class LoadCsv { 


// Path and file name separated for compatibility 
private String PATH; 

private String FILE NAME; 

private double[][] dataMatrix; 

private boolean columnsInFirstRow=false; 

private String separator = ","; 

private String fullFilePath; 

private String[] columnNames; 

final double missingValue=Double.NaN; 

// Constructors 


public LoadCsv (String path,String fileName) 

// http://www. hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/Text/... 

public LoadCsv (String fileName,boolean _columnsInFirstRow, String separator) 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
// Method to load data from file returning a matrix 
public double[][] getDataMatrix (String fullPath,boolean _columnsIn-FirstRow, 

String _separator) 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
// Static method for calls without instantiating LoadCsv object 
public static double[][] getData (String fullPath,boolean columnsIn-FirstRow, 

String _separator) 7 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
Method for saving data into csv file 
public void save () 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
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Giz 为 了 节约 篇 幅 ， 不 展示 完整 的 代码 。 想 了 解 更 多 细节 或 完整 的 方法 列表 ， 请 参考 附录 的 代码 和 文档 。 


这 里 还 创建 了 一 个 类 ， 把 从 CSV 中 加 载 的 原始 数据 存储 到 一 个 结构 中 ， 该 结构 不 仅 包 含 数据 ， 还 包含 列 名 之 类 的 信息 。 这 个 类 叫 DataSet， 也 在 包 edu.packt.neuralnet.data 中 : 


public class DataSet { 
// column names list 
public ArrayList<String> columns; 
// data matrix 


public ArrayList<ArrayList<Double>> data; 
public int numberOfColumns; 
public int numberOfRecords; 
// creating from Java matrix 
b 

n 

n 


lic DataSet (double[][] _data,String[] _columns) { 

umberOfRecords= data. length; 

umberOfColumns= data[0] .length; 

columns = new ArrayList<>(); 

for(int i=0;i<numberOfColumns; i++) { 

// http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/Text/... 
columns.add(_columns[i]); E 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
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data = new ArrayList<>(); 
for (int i=0;1i<numberOfRecords; itt) { 
data.add(new ArrayList<Double>()); 
for(int j3=0;j<numberOfColumns; j++) { 
data.get (1) .add(_ data[i] [j]); 
} 
} 


// creating from csv file 
public DataSet (String filename,boolean columnsInFirstRow, Stringseparator) { 
LoadCsv lcsv = new LoadCsv (filename, columnsInFirstRow, separator); 
double[][] _data= lcsv.getDataMatrix (filename, columnsInFirstRow, 
separator) ; 
numberOfRecords= data. length; 
numberOfColumns= data[0] .length; 
columns = new ArrayList<>(); 
if (columnsInFirstRow) { 
String[] columnNames = lcsv.getColumnNames () ; 
for(int i=0;i<numberOfColumns; i++) { 
columns.add(columnNames [1]) ; 


} 


else{ // default column names: Column0O, Columni, etc. 
for(int i=0;i<numberOfColumns; itt) { 
columns.add("Column"+String.valueOf (1)); 


} 
} 
data = new ArrayList<>(); 
or (int i1=0;i<numberOfRecords; i++) { 
data.add(new ArrayList<Double>() ) 
for(int j3=0;3<numberOfColumns; j++ 

data.get (1) .add(_ data[i] [j]); 
} 

} 
} 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
// method for adding new column 
public void addColumn(double[] _data,String name) 
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// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 

/ method for appending new data, number of columns must correspond 

ublic void appendData(double[][] data) 

/ http: //www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/Text/... 

/ getting all data 

ublic double[][] getData() { 
return ArrayOperations.arrayListToDoubleMatrix (data) ; 
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} 
// getting data from specific columns 
public double[][] getData(int[] columns) { 

return ArrayOperations.getMultipleColumns (getData(), columns); 


// getting data from one column 
public double[] getData(int col) { 
return ArrayOperations.getColumn (getData(), col); 


} 
// method for saving the data in a csv file 

public void save (String filename, String separator) 

// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


z 


在 第 4 章 中 ， 在 包 edu.packt.neuralnet.math 中 创建 了 一 个 类 ArrayOperations， 用 于 操作 数组 数据 。 该 类 有 大 量 的 静态 方法 ， 在 这 里 全 部 描述 出 来 是 不 现实 的 ， 如 有 需要 可 以 在 附录 中 查找 。 


5.2.2 ”从 CSV 文 件 加 载 数 据 集 


为 了 简化 任务 ， 在 类 LoadCsv 中 实现 一 个 静态 方法 来 加 载 CSV 文 件 ， 并 自动 将 其 转换 为 Dataset 对 象 的 结构 : 


public static DataSet getDataSet (String fullPath,boolean _columnsInFirst-Row, 
String _separator) { 
LoadCsv lcsv = new LoadCsv(fullPath, columnsInFirstRow, separator); 
lesv.columnsInFirstRow=_columnsInFirstRow; ~ 
lcsv.separator= separator; 
try{ 
lcsv.dataMatrix=lLcsv.csvData2Matrix (fullPath) ; 
System.out.printin("File "+fullPath+" loaded!"); 
} catch (IOException ice) { 
System.err.printin ("Error while loading CSV file. Details: " + 
ioe.getMessage()); 


} 


return new DataSet (lcsv.dataMatrix, lcsv.columnNames) ; 


5.2.3 ”创建 时 序 结 构 


时 序 结构 对 于 所 有 涉及 时 间 维 度 或 域 的 问题 都 是 必 不 可 少 的 ， 比 如 预报 和 预测 。 类 TimeSeries 实 现 了 一 些 与 时 间 相关 的 属性 ， 比 如 时 间 列 和 延迟 。 查 看 这 个 类 的 结构 : 


public class TimeSeries extends DataSet { 
// index of the column containing time information 
private int indexTimeColumn; 
public TimeSeries(double[][] _data,String[] _columns) { 
super ( data, columns); // just a call to superclass constructor 


} 
public TimeSeries (String path, String filename) { 
super (path, filename) ; 


eS 


public TimeSeries (DataSet ds) { 
uper (ds.getData(),ds.getColumns ()); 


n 
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public void setIndexColumn (int col) { 
this.indexTimeColumn=col; 
this.sortBy (indexTimeColumn) ; 


工 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


在 时 序 结构 中 ， 有 一 种 延迟 是 由 于 频繁 的 数据 转换 操作 造成 的 。 例 如 ， 在 处 理 过 程 中 我 们 只 想 关 注 两 个 过 去 的 温度 值 ， 而 非 当前 值 。 考 虑 到 温度 这 个 时 序 结构 带 有 时 间 属 性 (日 期 ) ， 我 们 必须 按照 需 
要 的 周期 数 来 转换 数据 (本 例 中 是 1 和 2) ， 如 图 5-3 所 示 。 


Original DataSet: Transformed DataSet: 


42429(29/02/ 


42430(01/03/ 


42432(04/03/ 


图 5-3 ”时 序 结构 的 数据 转换 图 


a 用 Microsoft Excel 将 日 期 类 型 转换 为 数值 类 型 。 使 用 数值 类 型 通常 优 于 诸如 日 期 或 类 别 之 类 的 结构 类 型 。 所 以 本 章 使 用 数值 类 型 表示 日 期 。 


某 个 时 间 点 的 数据 可 能 有 缺失 值 ， 或 根本 没有 测量 值 。 这 在 Java 短 阵 中 都 会 生成 NaN。 
* 在 一 个 时 间 段 内 移动 一 个 列 与 获取 前 一 行 的 值 是 不 同 的 。 这 就 是 选择 列 作为 时 间 参 数 的 原因 。 


在 类 ArrayOperations 中 ， 实 现 了 方法 shiftColumn， 用 于 转换 矩阵 的 列 ， 并 考虑 选择 时 间 列 作为 参考 。 该 方法 被 Timeseriers 类 中 的 同名 方法 调用 ， 然 后 用 于 shift 方 法 : 


public double[] shiftColumn(int col,int shift) { 
double[][] _data = ArrayOperations.arrayListToDoubleMatrix (data) ; 
return ArrayOperations.shiftColumn( data, indexTimeColumn, shift,col); 


} 

public void shift (int col,int shift) { 

String colName = columns.get (col); 

if (shift>0) colName=colName+" "+String.valueOf (shift); 

else colName=colName+" _"+String.valueOf (-shift) ; 
addColumn (shiftColumn (col, shift) ,colName) ; 

} 


5.24 EANaN 


NaN 是 加 载 或 转换 数据 后 经 常 出 现 的 噪声 数据 。 之 所 以 是 噪声 是 因为 我 们 无 法 对 其 进行 操作 。 如 果 将 一 个 NaN 数 据 输入 神经 网 络 ， 输 出 衣 定 是 NaN ， 这 类 数据 只 消耗 了 更 多 计算 能 力 ， 没 有 任何 意义 。 
所 以 要 丢弃 这 类 数据 。 在 类 Dataset 中 ， 实 现 了 两 个 方法 用 于 丢弃 NaN : 一 个 方法 用 一 个 值 来 替换 NaN; 另 一 种 方法 是 如 果 数 据 记 录 有 一 个 以 上 的 缺失 值 ， 就 将 整 行 丢 奔 ， 如 图 5-4 所 示 。 


// dropping with a substituting value 
public void dropNaN (double substvalue) 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
// dropping the entire row 
public void dropNaN () 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


Col0 Coll Col2 Col3 Col4 Col5 Col6 Col7 Col8 Col9 | Drop? 


| | Filled Value 


| | Missing Value(NaN) 


图 5-4 NaN 示 例 图 


5.2.5 ”获取 天 气 数据 

既然 有 了 数据 获取 工具 ， 就 从 网 上 找 一 些 数 据 集 。 本 章 将 使 用 来 自 巴 西 气象 局 研究 所 的 数据 (INMET: http://www.inmet.gov.bY， 语 言 是 葡萄 牙 语 ) ， 该 数据 在 网 上 是 免费 的 。 我 们 有 权 在 本 书 中 使 
用 。 但 是 读者 在 开发 应 用 程序 时 ， 可 以 使 用 网 上 任何 免费 的 天 气 数 据 库 。 

下 面 是 一 些 英语 语言 的 例子 : 

- Wunderground (http://wunderground.com/) 

- Open Weather Map (http://openweathermap.org/api) 

- Yahoo weather API (https://developer.yahoo.com/weather/) 


- US National Climatic Data Center (http://www.ncdc.noaa.gov/) 


5.26 “天气 变量 


任何 天 气 数据 库 几 乎 都 由 以 下 变量 组 成 : 

` 温度 (©) 

` 湿度 (%) 

“ 压力 (mbar) 

风速 (m/s) 

A C) 

- 降水 量 (mm) 

:日照 时 间 (h) 

- 太阳 能 (W/m?) 

这 些 数据 通常 按照 小 时 或 者 天 从 气象 站 、 卫 星 或 雷达 收集 而 来 。 
QET “根据 收集 频率 的 不 同 ， 一 些 变量 可 以 用 其 平均 值 、 最 小 值 或 最 大 值 表示 。 


数据 单位 也 因数 据 来 源 不 同 而 不 同 ， 所 以 应 该 经 常 注 意 源 数 据 的 单位 。 


5.3 ”选择 输入 和 输出 变量 


要 谨慎 地 选择 适当 的 数据 来 满足 大 部 分 系统 的 动态 需求 。 我 们 希望 神经 网 络 能 根据 当前 和 过 去 的 天 气 数 据 来 预测 未 来 的 天 气 ， 但 是 应 该 选择 哪些 变量 呢 ? 在 理解 变量 之 间 的 关系 时 ， 获 取 相 关 的 专业 意 
见 非常 有 用 。 


Qian 对 于 时 序 结构 变量 ， 可 以 根据 历史 数据 衍生 出 新 的 变 即 给 定 一 个 日 期 ， 可 以 将 日 期 转换 成 数值 ， 或 者 汇总 过 去 一 段 日 期 的 数据 ， 从 而 扩展 出 新 的 变量 


Bo 


在 定义 神经 网 络 问题 时 ， 有 一 个 或 多 个 预定 义 的 目标 变量 : 温度 预测 、 降 水 量 预 测 及 日 照 程度 测量 等 。 有 些 情况 下 ， 人 们 可 能 想 对 所 有 变量 建 模 ， 进 而 找到 它们 之 间 的 因果 关系 。 因 果 天 系 可 以 通过 统 


计 工 具 来 确定 ， 最 常用 的 方法 是 皮尔 逮 相关 性 : 


Ox, Oy 


这 里 ，E[X.Y] 是 变量 X 和 变量 Y 点 积 的 均值 ，E[X] 和 E[Y] 分 别 是 X 和 Y 的 均值 ; OCX 和 oY 分 别 是 X 和 Y 的 标准 差 ; Cx，y 是 皮尔 逊 相关 性 系数 ， 在 区 间 [-1，1] 之 间 。 这 个 系数 表示 变量 X 和 变量 Y 的 相关 性 大 小 。 
这 个 值 在 0 附近 ， 表 示 相 关 性 比较 弱 或 者 不 相关 ， 而 值 接近 -1 和 1 时 分 别 表示 负 相 关 和 正 相 关 。 这 可 用 散 点 图 表示 ， 如 图 5-5 所 示 。 


x ， Yy 


Scatter plot Scatter plot Scatter plot 
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图 5-5 皮尔 逊 相关 系数 散 点 图 


如 图 5-5a 所 示 ， 最 后 一 天 (索引 为 [-1]) 的 降水 量 和 最 高 温 
的 正 向 趋势 。 图 5-5c 显 示 了 一 个 强 正 相 关 的 例子 ， 前 一 天 最 高 温 


之 间 的 相关 性 是 -0.202， 呈 弱 负 相关 。 在 图 5-5b 中 ， 日 照 和 最 高 温度 之 间 的 相关 性 是 0.376， 呈 正 相关 ， 但 不 显著 ， 此 图 可 以 看 到 一 种 轻微 
和 当天 白天 最 高 温度 之 间 的 相关 性 是 0.793， 我 们 可 以 看 到 一 个 表示 相关 性 趋势 的 更 窗 的 点 状 云 。 


Be 


我 们 将 用 相关 性 为 神经 网 络 选 择 最 合适 的 输入 。 首 先 ， 在 类 DataSet 中 定义 一 个 方法 correlation。 请 注意 ， 已 经 在 类 ArrayOperations 中 实现 了 诸如 均值 和 标准 差 这 样 的 操作 : 


public double correlation (int colx,int coly) { 
double[] arrx = ArrayOperations.getColumn (data, colx) ; 
double[] arry = ArrayOperations.getColumn (data, coly) ; 
double[] arrxy = ArrayOperations. elementWiseProduct (arrx, arry); 
double meanxy = ArrayOperations.mean (arrxy) ; 
double meanx = ArrayOperations.mean (arrx) ; 
double meany = ArrayOperations.mean (arry); 
double stdx = ArrayOperations.stdev (arrx) ; 
double stdy = ArrayOperations.stdev(arry) ; 
return (meanxy*meanx*meany) / (stdx*stdy) ; 


我 们 不 会 深入 研究 本 书 的 统计 数据 ， 因 此 ， 如 果 读 者 对 这 个 主题 的 更 多 细节 感 兴 趣 ， 请 参考 推荐 的 资料 。 
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从 数据 源 收集 的 原始 数据 通常 呈现 不 同 的 特征 ， 比 如 数据 范围 、 抽 样 和 类 别 。 一 些 变量 是 测量 出 来 的 ， 而 另 一 些 是 汇总 或 计算 出 来 的 。 预 处 理 意味 着 将 变量 值 调 整 到 神经 网 络 能 够 正确 处 理 的 范围 。 


关于 天 气 变量 ， 表 5-2 展 示 了 数据 的 范围 、 取 样 和 类 型 。 


ug 


表 5-2 天 KHE 


A 
Er 
bls 
Nc 


Mean temperature 10.86 — 29.25 Average of hourly measurements 
Precipitation Accumulation of daily rain 

Insolation Count of hours receiving sun radiation 
Mean humidity Average of hourly measurements 
Mean wind speed Average of hourly measurements 


除 日 照 和 降水 量 外 ， 其 他 所 有 变量 都 通过 测量 而 得 ， 且 采用 相同 的 抽样 方式 ， 但 是 如 果 我 们 想 要 使 用 小 时 级 的 数据 集 ， 我 们 必须 采用 相同 的 采样 率 对 所 有 变量 进行 预 处 理 。 其 中 三 个 变量 是 用 日 均值 汇 
总 的 ， 但 是 如 果 愿 意 ， 可 以 按 小 时 进行 数据 测量 。 


5.4.1 上 归 一 化 


归 一 化 是 将 所 有 变量 统一 到 相同 数据 范围 的 过 程 ， 通 常数 据 范围 是 [0，1] 或 [-1，1]。 这 有 助 于 神经 网 络 在 激活 函数 的 变量 区 域内 显示 数据 ， 如 sigmoid 函 数 的 或 双 曲 正切 函数 ， 如 图 5-6 所 示 。 


数值 过 高 或 过 低 可 能 造成 
神经 元 激活 函数 也 
产生 过 高 或 过 低 的 值 


sigmoid(x) 


tanh(x) 


图 5-6” 归 一 化 函数 
数值 过 高 或 过 低 可 能 造成 神经 元 激活 函数 也 产生 过 高 或 过 低 的 值 ， 从 而 导致 神经 元 的 导数 太 小 ， 以 至 于 接近 0， 本 书 中 实现 了 两 种 归 一 化 模型 : min-max 归 一 化 和 z-score 归 一 化 。 


min-max 归 一 化 应 该 考虑 一 个 预定 义 的 数据 集 范围 。 它 采用 以 下 方式 实现 : 


X-X 
min +N 


min 


; oo an z Nai 
nm X 


max min 


这 里 ，Nmin 和 Nmax 分 别 是 归 一 化 后 的 最 小 值 和 最 大 值 ，Xmin 和 Xmax 分 别 是 变量 X 的 最 小 值 和 最 大 值 ，X 是 原始 数据 ，Xnorm 是 归 一 化 后 的 数据 。 如 果 我 们 想 归 一 化 到 0 和 1 之 间 ， 等 式 可 简化 如 下 : 


"a 


| | 


norm 
max 


通过 归 一 化 ， 生 成 一 个 新 的 归 一 化 数据 集 ， 进 而 提供 给 神经 网 络 。 我 们 还 应 考虑 到 ， 一 个 输入 归 一 化 数据 的 神经 网 络 经 过 训练 ， 输 出 结果 也 将 是 归 一 化 的 值 ， 所 以 逆 过 程 〈 反 归 一 化 ) 也 变 得 很 必要 : 


X -X 


BEF “~ norm min c3 
X E | ni B A eit , B i T Aag 
max “> min 


用 于 [0，1] 归 一 化 。 


另 一 种 归 一 化 模式 是 z-score 归 一 化 ， 它 考虑 了 均值 和 方差 : 


这 里 ，S 是 缩放 常数 ，E[X] 是 X 的 均值 ，ox 是 X 的 方差 。 这 种 归 一 化 方式 和 min-max 归 一 化 方式 的 最 大 区 别 在 于 ， 该 方法 不 限制 变量 的 取 值 范 围 ; 但 是 ， 这 些 变量 都 在 以 0 为 中 心 ， 方 差 等 于 缩放 常数 3 的 
相同 范围 里 。 


图 5-7 展 示 了 两 种 归 一 化 模式 的 数据 处 理 方式 .。 


Re Reg iin min-max 上 归 一 化 z-score 上 归 一 化 


图 5-7 ”数据 归 一 化 


为 了 处 理 数据 归 一 化 ， 实 现 了 类 DataNormalization。 由 于 归 一 化 考虑 了 数据 的 统计 属性 ， 因 此 需要 将 统计 信息 存储 在 类 DataNormalization 的 对 象 中 : 


public class DataNormalization { 
// ENUM normalization types 
public enum NormalizationTypes { MIN MAX, ZSCORE } 
// normalization type 
public NormalizationTypes TYPE; 
// statistical properties of the data 
private double[] minValues; 
private double[] maxValues; 
private double[] meanValues; 
private double[] stdValues; 
// normalization properties 
private double scaleNorm=1.0; 
private double minNorm=-1.0; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
// constructor for min-max norm 
public DataNormalization(double[][] data,double minNorm, 
double maxNorm) { 
this. TYPE=NormalizationTypes .MIN MAX; 
this.minNorm= minNorm; ~ 
this.scaleNorm= _maxNorm-_minNorm; 
calculateReference (data) ; 


CI 
. 


} 

// constructor for z-score norm 

public DataNormalization (double[][] data,double zscale) { 

this.TYPE=NormalizationTypes .ZSCORE; 

this.scaleNorm= zscale; 
calculateReference (data) ; 

} 

// calculation of statistical properties 

private void calculateReference (double[][] data) { 
minValues=ArrayOperations.min (data) ; 
maxValues=ArrayOperations.max (data) ; 
meanValues=ArrayOperations.mean (data) ; 
stdValues=ArrayOperations.stdev (data); 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


归 一 化 过 程 由 方法 normalize 执 行 。 该 方法 对 应 反 归 一 方法 denormalize: 


public double[][] normalize( double[][] data ) { 
int rows = data.length; 
int cols = data[0].length; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
double[][] normalizedData = new double[rows] [cols]; 
for(int i=0;i<rows;it+) { 
for(int j3=0;j<cols; j++) { 
Switch (TYPE) { 
case MIN MAX: 
normalizedData[i] [j]=(minNorm) + 
( maxValues[j] - minValues[j] )) 
break; 
case ZSCORE: 
normalizedData[i][j]=scaleNorm * (data[i][j] -meanValues[j]) / 
stdValues[j]; 
break; 


((data[i][j] -minValues[j]) / 
* (scaleNorm) ; 


} 
} 
} 
return normalizedData; 


} 


5.4.2 ”应 用 NeuralDataSet 处 理 归 一 化 


已 经 实现 的 类 NeuralDataSet、NeurallnputData 和 NeuralOutputData 都 将 运用 类 DataNormalization 的 对 象 来 处 理 归 一 化 操作 。 在 类 NeuralDataSet 中 ， 添 加 对 象 用 于 输入 和 输出 数据 的 归 一 化 : 


public DataNormalization inputNorm; 

public DataNormalization outputNorm; 

// zscore normalization 

public void setNormalization (double _scaleNorm) { 
inputNorm = new DataNormalization(_ scaleNorm) ; 
inputData.setNormalization (inputNorm) ; 
outputNorm = new DataNormalization(_scaleNorm) ; 
outputData.setNormalization (outputNorm) ; 

} 


// min-max normalization 


public void setNormalization(double minNorm,double maxNorm) { 
inputNorm = new DataNormalization( minNorm, maxNorm) ; 
inputData.setNormalization (inputNorm) ; 7 
outputNorm = new DataNormalization( minNorm, maxNorm) ; 
outputData.setNormalization (outputNorm) ; 


} 


类 NeurallnputData 和 NeuralOutputData 都 有 一 个 属性 normdata， 用 于 存储 归 一 化 后 的 数据 。 从 这 些 类 中 检索 数据 的 方法 都 有 一 个 布尔 类 型 的 参数 jsNorm， 用 于 表示 即将 被 检索 的 数据 是 否 应 该 归 
一 化 。 


类 NeurallnputData 负 责 将 输入 数据 提供 给 神经 网 络 ， 在 提供 给 神经 网 络 前 会 执行 归 一 化 。 该 类 实现 了 setNormalization 方 法 : 


public ArrayList<ArrayList<Double>> normdata; 
public DataNormalization norm; 
public void setNormalization(DataNormalization dn) { 
// getting the original data into java matrix 
double[][] origData = ArrayOperations.arrayListToDoubleMatrix (data); 
// perform normalization 
double[][] normData = dn.normalize(origData) ; 
normdata=new ArrayList<>(); 
// store the normalized values into ArrayList normdata 
for(int i=0;i<normData.length; i++) { 
normdata.add(new ArrayList<Double>()); 
for(int j3=0;j<normData[0].length; j++) { 
normdata.get (i) .add(normData[i] [j]); 


} 
} 
} 


在 类 NeuralOutputData 中 ， 有 两 个 数据 集 ， 一 个 是 目标 数据 集 ， 一 个 是 神经 网 络 输出 数据 集 。 目 标 数据 集 经 过 归 一 化 后 提供 给 训 
运用 完 神 经 网 络 输出 数据 集 后 ， 需 要 对 其 执行 反 归 一 化 : 


练 算法 。 而 神经 输出 数据 集 是 神经 网 络 的 输出 ， 就 是 说 将 归 一 化 。 在 


public ArrayList<ArrayList<Double>> normTargetData; 

public ArrayList<ArrayList<Double>> normNeuralData; 

public void setNeuralData(double[][] _data,boolean isNorm) { 

if(isNorm) { // if is normalized 

this.normNeuralData=new ArrayList<>(); 

for(int i=0;i<numberOfRecords; i++) { 

this.normNeuralData.add(new ArrayList<Double>()); 

// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... save in the normNeuralData 

for(int j=0;j<numberOfOutputs; j++) { 
this.normNeuralData.get (i) .add( data[i][j]); 


} 


double[][] deNorm = norm.denormalize(_ data) ; 

for(int i=0;i<numberOfRecords; i++) 

for(int j=0;j<numberOfOutputs;j++) // then in neuralData 
this.neuralData.get (i) .set(j,deNorm[i] [j]); 

} else setNeuralData( data); 


} 


54.3 ”应 用 学 习 算法 进行 归 一 化 


[=] 


最 后 ， 类 LearningAlgorithm 需 要 包含 normalization 属 性 : 


protected boolean normalization=false; 


在 训 


练 期 间 ， 每 次 调用 类 NeuralDataSet 的 检索 / 写 入 数据 方法 ， 属 性 normali-zation 的 值 都 应 该 传递 给 参数 isNorm， 就 像 在 类 Backpropagation 的 forward 方 法 中 所 做 的 那样 : 


@Override 

public void forward () { 

for(int i=0;i<trainingDataSet .numberOfRecords; i++) { 
neuralNet.setInputs (trainingDataSet.getInputRecord(i,normalization) ); 
neuralNet.calc(); 
trainingDataSet.setNeuralOutput (i, neuralNet.getOutputs () ,normalization) ; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
} 

} 


5.4.4 天 气 预报 的 Java 实 现 


我 们 将 通过 包 edu.packt.neuralnet.chart 中 的 Java 代 码 绘制 一 些 图 像 使 得 数据 可 视 化 。 我 们 已 经 从 巴西 气象 研究 所 (INMET) 下 载 了 几 个 城市 的 历史 气象 数据 ， 所 以 我 们 的 天 气 预报 案例 中 可 以 包含 多 
种 气候 。 


Gis “为 了 快速 训练 ， 选 择 5 年 间 的 数据 ， 其 中 包含 2000 多 个 样本 。 


5.4.5 ”收集 天 气 数据 


本 例 中 ， 我 们 想 收 集 来 自 不 同 地 方 的 多 种 多 样 的 数据 ， 以 证 明神 经 网 络 的 预测 能 力 。 虽 然 从 INMET 网 站 下 载 的 数据 只 覆盖 巴西 的 领土 ， 只 包含 巴西 的 城市 ， 但 是 巴西 是 一 个 有 着 多 样 性 气候 的 广阔 区 
域 。 表 5-3 是 我 们 收集 的 来 自 不 同城 市 的 数据 列表 。 


表 5-3 不 同城 市 的 天 气 数据 列表 


并 


TREE 
ET ere 


这 四 个 城市 的 地 理 位 置 如 图 5-8 所 示 。 
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图 5-8 巴西 城市 地 理 位 置 
图 片 来 源 : 维基 百科 ， 用 户 NordNordWest 运 用 美国 Imagery and Mapping Agency data 和 World Data Base II data 所 绘制 
这 里 收集 了 从 2010 年 1 月 到 2016 年 11 月 的 天 气 数据 ， 并 分 别 保 存 到 以 城市 名 命名 的 相应 文件 夹 中 。 
从 INMET 收 集 来 的 数据 包含 以 下 变量 : 
- 降水 量 (mm) 
` 最 高 温度 ('C) 
` RAR (CC) 


日照 (日照 时 间 ) 


‘RE (mm) 

. 平均 温度 CC) 

. 平均 湿度 (%) 

- 平均 风速 (m/h) 

. 日 期 (转换 成 Excel 中 的 数值 类 型 ) 

- 地 理 位 置 (维度 、 经 度 和 海拔 ) 

我 们 将 针对 每 个 城市 基于 过 去 的 天 气 数 据 建立 一 个 神经 网 络 ， 以 预测 当前 的 天 气 。 但 首先 注意 以 下 两 个 重要 问题 : 
“ 位 于 高 纬度 的 城市 ， 不 同 季 节 的 天 气 差 别 很 大 。 即 天 气 取 决 于 日 期 。 

" 天 气 是 一 个 非常 动态 的 系统 ， 其 变量 受过 去 值 的 影响 。 


为 了 解决 第 一 个 问题 ， 根 据 日 期 派生 出 一 个 新 的 列 ， 来 表示 中 午 太阳 光线 的 角度 ， 即 太阳 光线 到 城市 表面 最 高 点 的 角度 。 角 度 越 大 ， 太 阳 辐 射 就 越 强 烈 越 温暖 ; 另 一 方面 ， 当 角度 很 小 时 ， 地 表面 接收 
的 太阳 辐射 也 很 少 。 


和 中午 太阳 光线 角度 


图 5-9 太阳 辐射 角度 


中 午 太阳 光线 角度 的 计算 公式 以 及 在 类 WeatherExample 中 的 Java 实 现 分 别 如 下 : 


a = 90 —|—23.44con an DERS -lat 


iii \ 365.295 


public double calcSolarNoonAngle (double date,double latitude) { 
return 90-Math.abs (-23.44*Math.cos ((2*Math.PI/365.25) * (date+8.5))- 
latitude) ; 


} 


public void addSolarNoonAngle (TimeSeries ts,double latitude) { 
// to addcolumn 
double[] sna = new double[ts.numberOfRecords] ; 
for (int i=0;i<ts.numberOfRecords; i++) 
sna [i]=calcSolarNoonAngle (ts.data.get (1) .get (ts.getIndexColumn ()), 
latitude) ; 
ts.addColumn(sna, "NoonAngle") ; 


5.46 ”延迟 变量 


类 WeatherExample 中 有 一 个 方法 makeDelays， 该 方法 后 续 将 在 main 方 法 中 调用 。 除 了 索引 列 外 ， 对 给 定时 序 结构 Timeseries 的 所 有 列 都 执行 给 定 次 数 的 数据 延迟 转换 : 


public void makeDelays (TimeSeries ts,int maxdelays) { 
for (int i=0;i<ts.numberOfColumns; i++) 

if (i!=ts.getIndexColum () ) 

for (int j=1;j<=maxdelays; j++) 

ts.shift(i, =J); 


Qaz 不 要 多 次 调用 该 方法 ， 可 能 导致 多 次 延迟 相同 的 列 。 


5.4.7 “加载 数据 并 开始 运行 


在 类 WeatherExample 中 ， 新 建 四 个 TimeSeries 属 性 和 四 个 NeuralNet 属 性 : 


public class WeatherExample { 
TimeSeries cruzeirodosul; 
TimeSeries picos; 
TimeSeries camposdojordao; 
TimeSeries portoalegre; 


NeuralNet nncruzeirosul; 
NeuralNet nnpicos; 

NeuralNet nncamposjordao; 
NeuralNet nnportoalegre; 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/. . 


在 main 方 法 中 ， 加 载 数据 并 赋 给 每 个 Timeseries 对 象 属性 ， 同 时 将 数据 列 延 迟到 三 天 前 : 


public static void main(String[] args) { 
WeatherExample we = new WeatherExample () ; 
// load weather data 


we.cruzeirodosul = new TimeSeries (LoadCsv.getDataSet ("data" 
,"cruzeirodosul2010daily.txt", true, ";")); 
we.cruzeirodosul.setIndexColumn (0) ; 


we.makeDelays (we.cruzeirodosul, 3); 

we.picos = new TimeSeries (LoadCsv.getDataSet ("data", 
"picos2010daily.txt", true, ";")); 
we.picos.setIndexColumn (0) ; 

we.makeDelays(we.picos, 3); 

we.camposdojordao = new TimeSeries (LoadCsv.getDataSet ("data", 
"camposdojordao2010daily.txt", true, ";")); 
we.camposdojordao.setIndexColumn (0) ; 

we .makeDelays (we. camposdojordao, 3); 

we.portoalegre = new TimeSeries (LoadCsv.getDataSet ("data" 
,"portoalegre2010daily. txt", true, ";")); 
we.portoalegre.setIndexColumn (0) ; 

we.makeDelays (we.portoalegre, 3); 

// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/. . 


QES “这 段 代 码 的 执行 需要 花费 几 分 钟 ， 因 为 每 个 文件 超过 200 行 


加 载 后 需要 删除 NaN ， 因 此 在 每 个 时 序 结构 对 象 中 调用 方法 dropNaN : 


// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
we.cruzeirodosul.dropNaN () ; 

we.camposdojordao.dropNaN () ; 

we.picos.dropNaN () ; 

we.portoalegre.dropNaN () ; 

// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 


为 了 节省 后 续 执 行 的 时 间 和 精力 ， 这 里 将 数据 集 保存 下 来 : 


we.cruzeirodosul.save ("data", "cruzeirodosul2010daily delays clean.txt",";"); 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
we.portoalegre. save ("data", "portoalegre2010daily delays clean.txt",";"); 


对 于 所 有 时 序 结构 ， 每 列 都 有 三 天 延迟 ， 目 的 是 让 神经 网 络 能 够 预报 下 一 天 的 最 高 和 最 低温 度 。 可 以 依据 当前 和 过 去 预测 未 来 ， 因 此 对 于 输入 我 们 必须 依赖 延迟 的 数据 (后 推 1 到 3 天 ) ， 对 于 输出 我 们 
能 考虑 当前 温度 值 。 时 序 结构 的 每 一 列 都 可 以 通过 索引 访问 ， 日 期 列 的 索引 是 0。 因 为 数据 集 可 能 存在 某 些 列 的 缺失 ， 所 以 同一 列 的 索引 可 能 是 不 同 的 。 然 而 ， 整 个 数据 集 的 输出 变量 的 索引 都 是 相同 的 
(索引 2 和 3) 。 


54.8 ”相关 性 分 析 


我 们 感 兴趣 的 是 历史 数据 和 当前 最 高 最 低温 度 之 间 的 相关 性 。 所 以 我 们 组 合 所 有 潜在 输入 和 输出 变量 ， 进 行 交叉 相关 性 分 析 ， 并 至 少 选择 一 个 最 小 绝对 相关 性 作为 阐 值 。 所 以 定义 一 个 以 最 小 绝对 相关 
性 作为 参数 的 方法 correlationAnalysis。 为 了 节约 篇 幅 ， 这 里 对 代码 进行 了 缩减 : 


public void correlationAnalysis (double minAbsCorr) { 
// indexes of output variables (max. and min. temperature) 
int[][] outputs = { 
{2,3}, // cruzeiro do sul 
{2,3}, // picos 
{2,3}, // campos do jordao 
{2,3}}; // porto alegre 
int[][] potentialInputs = { // indexes of input variables (delayed) 
{10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28, 
29, 30, 31, 32, 33, 34, 38, 39,40}, // cruzeiro do sul 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... and all others 


}; 
ArrayList<ArrayList<ArrayList<Double>>> chosenInputs = new 
ArrayList<>(); 
TimeSeries[] tscollect = {this.cruzeirodosul,this.picos, this.camposdojordao, 
this.portoalegre}; 
double[][][] correlation = new double[4] [][]; 
for(int 1i1=0;i<4;1i++) { 
chosenInputs.add(new ArrayList<ArrayList<Double>>()); 
correlation[i]=new double [outputs [i] .length] [potentialInputs [i] .length]; 
for(int j3=0;j<outputs [i] .length; j++) { 
chosenInputs.get (i) .add (new ArrayList<Double>()); 


for(int k=0;k<potentialInputs [i] 
correlation [i] [j] [k]=tscollect [i] 
[i] [k]); 

// if the absolute correlation is above the threshold 
if (Math.abs (correlation [i] [j] [k]) >minAbsCorr) { 

// it is added to the chosen inputs 

chosenInputs.get (i) .get (j) .add(correla 

// and we see the plot 

tscollect [i] .getScatterChart ("Correlation"+String.valueOf- 

lation[i] [3] [k]), outputs[i] [j], potentialInputs[i] [k],Color. 

setVisible (true) ; 


. Length; k++) { 
.correlation (outputs [i] [j],potentiall 


nputs 


tion 


[i] [j] [k]); 


(corre- 
BLACK). 


交 分 析 方 法 ， 得 到 以 下 结果 (加 粗 列 被 选 为 神经 网 络 的 输入 ) : 


Correlation Analysis for data from Cruzeiro do Sul Correlations with the output Variable: 


l ; o MinTemp 

Correlations with the output Variable: NoonAngle:0.346 545 
Max Temp sag Precipitation 1:0.012 696 
sisal ys ae 2608 Precipitation 2:0.063 303 
Precipitation 1:—0.115 547 Precipitation _3:0.112 842 
Precipitation _ ‘i —0.038 969 MaxTemp _1:0.311 005 
Precipitation 3: Tine 173 MaxTemp _2:0.244 364 
ican. > eA MaxTemp 3:0.123 838 
deceit ss cies hia MinTemp 1:0.757 647 
oe ee MinTemp 2:0.567 563 
MinTemp__1:-0.033 339 MinTemp 3:0.429 669 
Mintemp_. f p a ues insolation _1:-0. 101 92 
bie, ae a Deore Insolation 2:-0.101 146 
ei 10,347 741 Insolation 3:-0.151 896 
Insolation_ 2 Evaporation 1:-0.115 236 
Insolation = 3 Evaporation 2:-0.160 718 
Cynpomaton, 1 EES AB Evaporation 3:-0.160 536 
a i sii AvgTemp__1:0.633 741 
le pee annie 385 AveTemp 2:0.487 609 
ee ae = AveTemp 3:0.312 645 
ee ee aes AvgHumidity 1:0.1$1 009 
op > — AveHumidity 2 (0.155 019 
AvgHumidity__ a ee AvgHumidity 3:0.177 833 
Pie emcee 0285 sy WindSpeed__1:-0.198 555 
TE aT 7 whe u WindSpeed_2:-0.227 227 
ki Sze a bone e WindSpeed__3:-0.185 377 

we ee A NoonAngle 1:0.353 834 
Wnspeed S0660 NoonAngle 2:0.360 943 
Wenangle MOZETE NoonAngle 3:0.367 953 
NoonAngle 2:0.025 671 0 
NoonAngle 3:0.022 786 4 


5-10 所 示 的 散 点 图 ， 显 示 了 数据 相关 性 。 


bi) Cruzerio do Sul - Correlation 0.49705730793165254 
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lis Cruzeno do Sul - Correlation 0.7576475383652902 
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图 5-10 ”数据 相关 性 散 点 图 


= 口 x 


7? 23 


24 2 


ii} Cruzetio do Sul - Correlation 0.3679531339424357 - o 
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在 图 5-10a 可 见 ， 最 后 一 天 的 最 高 温度 和 当前 温度 之 间 有 一 个 较 好 的 相关 性 ; 在 图 5-10b 中 ， 最 后 一 天 的 最 低温 度 和 当前 温度 之 间 是 强 相 关 的 关系 ; 在 图 5-10c， 三 天 前 的 正午 太阳 角度 和 当前 最 低温 度 
之 间 是 弱 相 关 关 系 。 通 过 针对 所 有 其 他 城市 的 数据 运行 分 析 代 码 ， 选 定 其 他 神经 网 络 的 输入 : 


Cruzeiro do Sul Campos do Jordao Porto Alegre 


NoonAngle MaxTemp NoonAngle MaxTemp 
Maxlemp 1 Maxlemp _ Maxlemp | NoonAngle 
MinTemp 1 Maxlemp i Maxlemp 2 Maxlemp 1 
MinTemp 2 Maxlemp _ Maxlemp 3 Maxlemp 2 
MinTemp 3 MinTemp _ MinTemp 1 MaxTemp 3 
Insolation 1l MinTemp _ MinTemp 2 MinTemp 1 
AvgTemp 1 MinTemp _ MinTemp 3 MinTemp 2 
AveTemp 2 Insolation _ Evaporation 1l MinTemp 3 
AvgHumidity | Insolation “ AvgTemp | Insolation 1 
NoonAngle 1 Evaporation _ AvgTemp 2 Insolation 2 
NoonAngle 2 Evaporation: AvgTemp 3 Insolation 3 
NoonAngle 3 Evaporation AvgHumidity 1 Evaporation 1l 
AvgTemp _ NoonAngle 1 Evaporation 2 
AveTemp _ NoonAngle 2 Evaporation 3 
Avglemp _ NoonAngle 3 AvgTemp 1l 
AvgHumidity _ AvgTemp 2 
AvgHumidity _ Avglemp 3 
AvgHumidity _ AvgHumidity 1l 
AvgHumidity 2 
NoonAngle 1 
NoonAngle 2 
NoonAngle 3 


5.4.9 ”创建 神经 网 络 


我 们 使 用 四 个 神经 网 络 预测 最 小 和 最 大 温度 。 开 始 神经 网 络 将 有 两 个 隐 含 层 ， 神 经 元 个 数 分 别 是 20 和 10， 激 活 函 数 采 用 sigmoid。 我 们 将 应 用 min-max 归 一 化 方法 。 类 WeatherExample 中 用 于 创建 神 
经 网 络 配置 的 方法 如 下 : 


public void createNNs () { 
// fill a vector with the indexes of input and output columns 
int[{] inputColumnsCs = {10,14,17,18,19,20,26,27,29, 38,39,40}; 
int[] outputColumnsCs = {2,3}; 
// this static method hashes the dataset 
NeuralDataSet[] nnttCS = NeuralDataSet.randomSeparateTrainTest (this. 
cruzeirodosul, inputColumnsCS, outputColumnsCs, 0.7); 
// setting normalization 
DataNormalization.setNormalization(nnttCS, -1.0, 1.0); 

this.trainDataCS = nnttCS[0]; // 70% for training 

this.testDataCS = nnttCS[1]; // rest for test 

// setup neural net parameters: 

this.nncruzeirosul = new NeuralNet( inputColumnsCS.length, output-ColumnscCs. 

length, new int[]{20,10}, 

new TActivationFunction[] {new HyperTan(1.0),new Sigmoid(1.0) }, 

new Linear(), 

new UniformInitialization(-1.0, 1.0) ); 

// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


5.4.10 JI 


测试 
第 2 章 已 经 提 到 神经 网 络 应 该 测试 ， 以 验证 其 学 习 能 力 ， 因 此 我 们 将 数据 集 分 为 训练 集 和 测试 集 。 通 常 约 50% ~ 809% 的 原始 过 滤 数据 用 于 训练 ， 剩 下 的 部 分 用 于 测试 。 
类 NeuralDataSet 中 的 静态 方法 randomSeparateTrainTest 将 数据 集 分 成 两 个 子 集 。 为 了 确保 最 大 泛 化 ， 数 据 集 记录 将 被 散 列 化 到 随机 位 置 ， 如 图 5-11 所 示 。 


原始 数据 可 能 是 有 序 的 ， 如 时 序 结构 的 天 气 数据 。 如 果 用 散 列 将 记录 映射 到 随机 的 位 置 ， 那 么 训练 集 和 测试 集 将 会 包含 来 自 所 有 时 间 段 的 数据 。 


Tipoj 


图 5-11 原始 数据 散 列 


5.4.10.1 il 


练 神经 网 络 


神经 网 络 将 依据 基本 的 反 向 传播 算法 进行 训练 。 针 对 克 鲁 塞 罗 (Cruzeiro do Sul) 数据 集 的 训练 代码 如 下 : 


Backpropagation bpCS = new Backpropagation (we.nncruzeirosul, 
we.trainDataCs, 
LearningAlgorithm. LearningMode.BATCH) ; 

bpCS.setTestingDataSet (we.testDataCs) ; 

bpCS.setLearningRate (0.3); 

bpCS.setMaxEpochs (1000) ; 

bpCS.setMinOverallError (0.01); // normalized error 
bpCS.printTraining = true; 


bpCS.setMomentumRate( 0.3 ); 

try{ 
bpCs. forward () ; 
bpCS.train(); 


System.out.printin ("Overall Error:"+ String.valueOf (bpCS. 
getOverallGeneralError())); 

System.out.printin ("Testing Error:"+ String.valueOf (bpCS. 
getTestingOverallGeneralError())); 


System.out.printin("Min Overall Error:" + String.valueOf (bpCs. 
getMinOverallError())); 

System.out.printin("Epochs of training:" + String.valueOf (bpCs. 
getEpoch ())); 

} catch (NeuralException ne) { } 


5.4.10.2 ”绘制 误差 曲线 


可 以 使 用 JFreeCharts 框 架 为 训练 集 和 测试 集 绘制 误差 变化 趋势 。 类 BackPropaga-tion 继 承 和 重 写 了 类 LearningAlogrithm 中 的 方法 showErrorEvolution。 调 用 如 下 方法 以 观察 误差 变化 图 : 


// plot list of errors by epoch 
bpCS.showErrorEvolution () ; 


执行 代码 将 生成 误差 变化 趋势 图 ， 如 图 5-12 所 示 。 


|| Error Evolution 


Error Evolution 


Æ Train Error -® Test Error 


图 5-12 ”误差 变化 趋势 


5.4.11 可 视 化 神经 网 络 的 输出 


运用 上 述 介绍 的 工具 ， 可 以 很 容易 可 视 化 和 对 比 神 经 网 络 的 输出 。 首 先 ， 需 要 将 神经 网 络 的 输出 转换 成 向 量 形式 ， 接 着 通过 方法 addColumn 添 加 到 数据 集中 。 然 后 将 其 命名 为 NeuralMinTemp 和 


NeuralMaxTemp: 


String[] neuralOutputs = { "NeuralMaxTemp", "NeuralMinTemp"}; 
we.cruzeirodosul.addColumn (we. fullDataCS.getIthNeuralOutput (0), 
neuralOutputs[0]); 
we.cruzeirodosul .addColumn (we. fullDataCS.getIthNeuralOutput (1), 
neuralOutputs[1]); 
String[] comparison = {"MaxTemp", "NeuralMaxTemp"} ; 
Paint[] comp color = {Color.BLUE, Color.RED}; 
final double minDate = 41200.0; 

final double maxDate = 41300.0; 


类 Timeseries 中 有 一 个 方法 getTimePlot， 该 方法 用 于 在 指定 范围 内 绘制 图 像 〈( 见 图 5-13) 。 


ChrtFrame viewChart = we. cruzeirodosul. getTimePlot ("Comparison", 
comprison, comp color, minDate, maxDate) ; 


|| Comparison 


Comparison 
as a el a 
| 


| 


41.300 41.310 41.320 41.330 41.340 41.350 41.360 41.570 41.380 41.390 41.400 
Date 


Æ MaxTemp + NeuralMaxTemp 


图 5-13 ”和 神经 网 络 输出 对 照 图 


5.5 ”神经 网 络 实验 设计 


当 在 回归 问题 (包括 预测 ) 中 使 用 神经 网 络 时 ， 隐 含 层 神经 元 的 数目 不 是 固定 的 ， 所 以 通常 求解 器 选择 任意 数量 的 神经 元 ， 然 后 再 根据 所 创建 的 网 络 产生 的 结果 进行 调整 。 这 个 过 程 将 会 重复 多 次 ， 直 
到 找到 一 个 符合 满意 度 标 准 的 网 络 。 


5.5.1 设计 实验 

实验 可 以 在 相同 的 训练 集 和 测试 集 上 进行 ， 但 是 其 他 网 络 参数 可 以 改变 ， 比 如 学 习 率 、 归 一 化 和 隐 含 神经 元 的 数量 。 目 的 是 从 实验 中 选择 表现 最 佳 的 神经 网 络 。 一 个 好 的 网 络 学 习 结果 主要 体现 在 : 提 
共 一 个 较 低 的 MSE 误 差 ， 且 对 测试 数据 有 较 好 的 泛 化 能 力 。 

Giz “在 设计 实验 时 ， 考 虑 开始 总 是 设置 较 小 的 隐 含 神经 元 数量 ， 这 有 利于 减少 计算 量 。 

所 有 城市 的 实验 结果 见 表 5-4。 


表 5-4 实验 结果 


实验 隐 含 层 中 神经 元 的 数量 数据 归 一 化 类 型 
MIN MAX [-1, 1] 
Z-SCORE 


#] 
0.1 
#3 MIN MAX [-1, 1] 
5 0.5 一 
#4 Z-SCORE 
#5 MIN MAX [-1, 1] 
#6 Z-SCORE 
加 MIN MAX [-1, 1] 
7-SCORE 
m MIN MAX [-1, 1] 
Z-SCORE 


MIN MAX [-1, 1] 
Z-SCORE 


0.9 


5.5.2 ”结果 和 模拟 


为 了 便于 实验 的 执行 ， 设 计 一 个 Java Swing 的 图 形 用 户 界 面 (GUI) ， 它 可 以 用 于 选择 训练 集 和 测试 集 的 神经 网 络 参 数 。 
Giz 这 个 界面 涉及 仅 一 个 隐 含 层 的 神经 网 络 。 然 而 ， 因 为 代码 是 开源 的 ， 所 以 建议 将 包含 多 个 隐 含 层 的 多 层 感 知 机 的 实现 作为 一 个 练习 ， 并 在 训练 时 选择 其 他 算法 。 
5-14 只 显示 了 预测 的 最 高 温度 ， 因 此 ， 也 建议 实现 显示 最 低温 度 的 选项 。 


选择 完 训练 参数 之 后 ， 单 击 Start Training 按 钮 ， 训 练 开 始 执行 ， 如 图 5-14 所 示 。 


|S Weather GUI - Backpropagation 


Set backpropagation training parameters: 


Dataset (city): 


Neurons in hidden layer 


—— 


Learning rate (0.1) 


ee UL TEN | DLL | 可 ARLETE PELIT T LAAN | aari) 


ð 1 ma 3 A I 的 人 得 y Ww 10 
Momentum rate (0.7) 

UOC | 

ò w0 A ya A he Ww 10 
Data normalization type 


MIN_MAX [-1.0, 1.0] 


Maximum of Epochs 


300 


Minimum Overall Error 
0.01 | 


Beep when training finish 


图 5-14 ”天气 预测 GUI 


训练 和 迭代 12 次 后 ， 每 个 数据 集 的 训练 误差 MSE 见 表 5-5。 


表 5-5 ”训练 误差 MSE 


( Zz ) 


#12 0.198 35 0.155 036 0.145 843 


MSE 误 差 只 是 告诉 我 们 神经 网 络 的 输出 与 整个 环境 中 实际 输出 的 匹配 程度 。 可 以 通过 观察 时 序 结构 对 照 图 和 散 点 图 来 验证 此 性 能 ， 如 图 5-15 所 示 。 


Comparison g Scatter Plot 


Comparison - epoch: 300 Scatter Plot 
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Comparison - epoch: 300 Scatter Plot 
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La 


Porto Alegre 


图 5-15 “时 序 结 构 对 照 图 和 散 点 图 


图 5-15 说 明 ， 虽 然 很 多 情况 下 无 法 准确 预测 温度 ， 但 是 可 以 预测 出 变化 趋势 。 这 可 以 通过 散 点 图 中 可 视 化 的 相关 性 进行 证 明 。 图 5-15 的 后 一 行 显示 了 对 Porto Alegre 的 温度 预测 ， 该 地 属于 亚热带 气 


候 ， 且 温度 差 比较 大 ， 由 图 可 知 ， 即 使 对 于 极端 的 温度 变化 预测 效果 也 很 好 。 然 而 ， 我 们 预报 天 气 需 要 考虑 许多 额外 变量 ， 由 于 可 用 性 约束 ， 这 些 变量 不 能 包含 在 本 例 中 。 无 论 如 何 ， 结 果 表 明 ， 神 经 网 络 
结构 对 于 寻找 一 个 可 以 超越 这 些 的 发 现 ， 是 一 个 很 好 的 开端 。 


56 本章 小 结 


本 章 介 绍 了 基于 神经 网 络 的 应 用 示例 。 天 气 预报 一 直 是 一 个 有 意义 的 研究 领域 ， 神 经 网 络 广泛 用 于 这 个 领域 。 通 过 本 章 ， 读 者 还 学 习 了 如 何 针对 预测 问题 准备 类 似 的 实验 。 在 设计 神经 网 络 进行 预测 
时 ， 正 确 应 用 数据 选择 技术 和 预 处 理 技术 能 够 节省 大 量 的 时 间 。 本 章 也 是 后 续 章 节 的 基础 ， 因 为 它们 都 将 集中 在 实际 案例 上 ， 因 此 ， 这 里 所 学 的 概念 将 在 本 书 其 余部 分 得 到 广泛 探讨 。 


到 目前 为 止 , 我 们 一 直 在 用 监督 学 习 预 测 数 值 。 然 而 ， 在 现实 世界 中 ， 数 字 只 是 数据 处 理 的 一 部 分 。 真 实 变量 也 包含 分 类 值 ， 它 不 是 纯 数学 ， 但 是 描述 了 影响 神经 网 络 所 要 解决 问题 的 重要 特征 。 本 章 
将 介绍 一 个 有 点 说 教 性 质 但 很 有 趣 的 应 用 ， 它 涉及 分 类 数值 和 类 别 : 疾病 识别 。 这 一 章 深 入 研究 了 分 类 问题 及 如 何 表示 分 类 数据 ， 同 时 介绍 了 如 何 使 用 神经 网 络 设计 一 个 分 类 算法 。 本 章 将 讨论 以 下 主题 


:分 类 问题 的 基础 
分 类 数据 
. 逻辑 回归 
` 混淆 矩阵 
+ 敏感 性 和 特异 性 
分 类 神经 网 络 
“ 用 神经 网 络 识别 疾病 
. 癌症 识别 


- 糖尿 病 识别 


6.1 分 类 问题 的 基础 


神经 网 络 最 擅长 的 就 是 对 数据 记录 进行 分 类 。 用 简单 的 感知 网 络 绘 制 一 个 决策 边界 ， 该 边界 描述 了 数据 点 属于 哪个 区 域 ， 而 一 个 区 域 表示 一 个 类 别 。 分 类 问题 在 x-y 散 点 图 上 的 可 视 化 表示 如 图 6-1 所 


示 。 
虚线 明确 地 对 点 集 进 行 分 类 。 这 些 点 表示 最 初 拥有 相应 类 标签 的 数据 记录 。 意 思 是 这 些 数据 的 分 类 已 知 ， 因 此 这 个 分 类 任务 属于 监督 学 习 


分 类 算法 试图 在 超 空间 中 寻找 类 与 类 之 间 的 边界 。 一 旦 定义 好 分 类 边界 ， 一 个 未 知 分 类 的 新 数据 点 ， 就 可 以 根据 分 类 算法 定义 的 边界 得 到 一 个 类 标签 。 图 6-2 展 示 了 一 个 新 数据 记录 如 何 分 类 的 过 程 。 
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分 类 问题 的 散 点 图 


New Pecord 


According to the 
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图 6-2 ”算法 的 分 类 过 程 


根据 当前 的 类 配置 ， 新 数据 记录 属于 第 三 类 。 


6.1.1 分 类 数据 


应 用 程序 通常 使 用 如 图 6-3 所 示 的 数据 类 型 。 


数据 


数值 的 


SHAY HJF TOY 


图 6-3 ”分 类 问题 的 数据 类 型 


数据 可 以 是 数值 型 或 分 类 型 ， 也 可 以 是 简单 的 数字 或 单词 。 数 值 型 数据 由 一 个 数值 表示 ， 可 以 是 连续 的 ， 也 可 以 是 离散 的 ， 这 种 数据 类 型 已 经 在 本 书 的 应 用 中 使 用 过 。 分 类 数据 是 一 个 更 广泛 的 数据 类 
别 ， 包 括 单词 、 字 母 甚至 数字 ， 但 有 着 截然 不 同 的 含义 。 数 值 型 数据 可 以 支持 算术 运算 ， 而 分 类 数据 只 是 描述 性 的 ， 就 算 它 是 个 数字 也 不 能 像 数 字 那 样 处 理 。 举 例 来 说 : 疾病 的 严重 程度 范围 (例如 ， 从 0 到 
5) 。 分 类 数据 的 另 一 个 属性 是 某 个 变量 的 值 的 个 数 是 有 限 的 ; 换 句 话说 ,分 类 变量 的 值 是 一 个 已 定义 好 的 有 限 值 的 集合 。 分 类 数据 的 子 集 是 有 序 的 。 这 个 分 类 很 特别 ， 因 为 定义 好 的 值 可 以 按照 预定 义 的 顺 
序 进行 排序 。 一 个 例子 是 形容 词 ， 它 表示 某 物 的 状态 或 质量 (糟糕 的 、 中 等 的 、 好 的 、 极 好 的 ) ， 见 表 6-1。 


表 6-1 数值 型 和 类 别 型 对 照 表 


数值 型 类 别 型 


只 有 数字 数字 Wha, FER TFS 
FER ARIZ FH 不 文 持 算术 运算 
无 限 或 未 定义 值 范 转 有 限 或 已 定义 的 一 组 值 
连续 的 SE Ii Ae AY 
实效 EIF HY 
任意 可 能 值 已 定义 区 间 每 个 可 能 值 都 是 一 个 标志 


ta 这 里 只 讨论 结构 化 数据 。 在 现实 世界 中 ， 大 部 分 数据 都 是 非 结 构 化 的 ， 包 含 文本 和 多 媒体 内 容 。 尽 管 在 数据 应 用 学 习 中 也 能 对 这 类 数据 进行 处 理 ， 但 神经 网 络 需 要 将 它们 转换 成 结构 化 数据 类 


6.1.2 “处理 分 类 数据 


结构 化 数据 文件 〈 例 如 在 CSV 或 Excel 中 使 用 的 数据 文件 ) 通常 包含 数值 类 型 或 分 类 数据 的 列 。 在 第 5 章 中 ， 创 建 了 类 LoadCsv (用 于 加 载 csv 文 件 ) 和 类 DataSet (用 于 存储 成 csv 数 据 ) ， 这 两 个 类 只 用 
于 处 理 数值 型 数据 。 表 达 分 类 数据 最 简单 的 方法 ， 是 将 每 个 分 类 值 转换 为 二 进 制 列 ， 如 果 给 定 值 在 原始 列 中 出 现 ， 相 应 的 二 进 制 转换 值 为 1， 否 则 转换 值 是 0， 如 图 6-4 所 示 。 


序数 列 认为 同一 列 的 值 均 为 数字 。 然 而 ， 如 果 原 始 值 是 字母 或 者 单词 ， 则 需要 通过 Java 字典 将 它们 转换 为 数字 。 


效 但 型 一 进 制 数 
FAL 


图 6-4 ”分 类 数据 和 二 进 制 之 间 的 转换 


可 以 实现 上 面 描述 的 策略 作为 练习 。 否 则 ， 必 须 手 动 处 理 这 个 问题 。 这 种 情况 可 能 会 非常 耗 时 ， 主 要 取决 于 数据 行 的 数量 。 


6.2 ”逻辑 回归 


我 们 已 经 讨论 过 ， 神 经 网 络 可 以 作为 数据 分 类 器 在 超 空 间 中 建立 决策 边界 。 这 一 边界 对 于 感知 机 来 说 是 线性 的 ， 在 其 他 神经 结构 中 ， 如 MLP、Kohonen 或 Adaline 中 是 非 线性 的 。 线 性 情况 是 基于 线性 
回归 的 ， 如 图 6-1 所 示 ， 这 种 情况 下 分 类 边界 是 一 条 直线 。 如 果 数 据 的 散 点 图 如 图 6-5 所 示 ， 就 需要 一 个 非 线 性 分 类 边界 


神经 网 络 实际 上 是 一 个 很 好 的 非 线 性 分 类 器 ， 主 要 通过 非 线 性 激活 函数 实现 。 对 于 非 线性 分 类 器 比较 适合 的 非 线 性 函数 是 sigmoid 函 数 ， 使 用 这 个 函数 进行 分 类 的 过 程 叫做 逻辑 回归 。 


图 6-5 散 点 图 数据 分 类 


这 个 函数 的 返回 值 在 0 到 1 之 间 。 参 数 x 表 示 从 0 到 1 发 生 转 换 的 难 易 程 度 。 对 于 不 同 x， 函 数 的 变化 情况 如 图 6-6 所 示 。 
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图 6-6 x FA Bah4sigmoid žk W AX 


te, SMERA, SRS RI MERI, BABINES. 


分 类 问题 通常 处 理 多 分 类 的 情况 ， 给 每 个 分 类 分 配 一 个 标签 。 然 而 ， 一 个 二 进 制 分 类 模式 在 神经 网 络 中 是 很 有 用 的 。 因 为 在 输出 层 带 有 逻辑 函数 的 神经 网 络 只 能 产生 0 到 1 之 间 的 值 ， 这 意味 着 它 属 于 某 
(1) 或 者 不 属于 某 个 分 类 (0) 。 


— 
~~ 
过 


然而 ， 也 有 一 种 方法 可 以 使 用 二 进 制 函数 来 实现 多 分 类 。 假 设 每 个 分 类 都 由 输出 神经 元 表示 ， 每 当 输出 神经 元 触发 时 ， 该 神经 元 对 应 的 分 类 就 应 用 到 输入 数据 中 。 例 如 用 一 个 网 络 对 疾病 进行 分 类 ， 每 
个 神经 元 输出 都 代表 适用 于 某 些 症状 的 一 类 疾病 ， 如 图 6-7 所 示 。 


图 6-7 基于 神经 网 络 对 疾病 进行 多 分 类 


ta 注意 ， 这 种 情况 下 ， 可 能 出 现 具有 相同 症状 的 多 种 疾病 。 然 而 ， 如 果 只 从 中 选择 一 种 分 类 ， 那 么 竞争 学 习 算 法 模式 很 适合 这 种 情况 。 


6.2.2 RAABE 
没有 完美 的 分 类 器 算法 ; 所 有 算法 都 会 产生 一 些 错误 和 偏差 。 然 而 ， 人 们 期 望 一 个 分 类 器 算法 能 够 正确 地 对 70% ~ 90% 的 记录 进行 分 类 。 
ja 分 类 正确 率 很 高 并 不 总 是 好 的 ， 因 为 输入 数据 中 的 偏差 可 能 会 影响 分 类 任务 ， 当 只 有 训练 数据 被 正确 分 类 时 ， 也 存在 过 度 训练 的 风险 。 
混淆 和 矩阵 显示 给 定 类 的 记录 中 ， 有 多 少 是 正确 分 类 的 ， 有 多 少 是 错误 分 类 的 。 混 淆 和 矩阵 见 表 6-2。 


表 6-2 ”混淆 矩阵 


预测 类 占 的 百分比 总 的 
日 分 比 


将 
> Si 
性 

> 
x 
pt 
<< 
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中 
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100% 
D 0% 2% 1% 1% 100% 


注意 ， 主 对 角 线 将 具有 更 高 的 值 ， 因 为 分 类 算法 总 是 试图 从 输入 数据 集中 提取 有 意义 的 信息 。 所 有 行 的 总 和 必须 等 于 100%， 因 为 给 定 分 类 的 所 有 样本 都 将 被 识别 成 某 个 已 知 分 类 。 请 注意 ， 有 些 类 的 分 
类 结果 可 能 比 预 期 的 要 多 。 


混淆 矩阵 越 接近 单位 矩阵， 分 类 算法 就 越 好 。 


6.2.3 ”敏感 性 与 特异 性 


对 于 二 进 制 分 类 ， 混 淆 和 矩阵 是 一 个 简单 的 2x 2 矩 阵 ， 每 个 位 置 有 自己 的 含义 ， 见 表 6-3。 


表 6-3 混淆 矩阵 各 位 置 含 义 


预测 类 


对 于 本 章 讨 论 的 疾病 识别 问题 ， 应 用 二 元 混淆 矩阵 的 概念 ， 诊 断 错 误 时 或 者 是 假 阳性 或 者 是 假 阴性 。 预 测 结果 的 错误 率 可 以 通过 灵敏 性 和 特异 性 指数 来 衡量 。 


灵敏 性 是 指 真 阳性 发 生 的 概率 ， 它 衡量 了 有 多 少 记录 被 正确 地 分 类 : 


此 一 
o 


可 


而 特异 性 是 指 真 阴性 发 生 的 概率 ， 它 表示 负 例 被 正确 识别 的 比例 : 


敏感 性 越 高 ， 表 示 漏 诊 率 越 低 ; 特异 性 越 高 ， 表 示 误 诊 率 越 低 ， 所 以 敏感 性 和 特异 性 越 高 越 好 。 然 而 ， 根 据 应 用 领域 的 不 同 ， 敏 感性 可 能 具有 更 大 的 意义 。 


6.2.4 ”实现 混淆 和 矩阵 


在 代码 中 ， 通 过 类 NeuralOutputData 实 现 混 消 和 矩 咱 。 下 面 的 方法 calculateConfusionMatrix 在 输出 层 中 考虑 两 个 神经 元 。 如 果 输 出 是 10， 对 于 混 消 和 矩阵 是 yes; 如 果 输 出 是 01， 是 no: 


public double[][] calculateConfusionMatrix (daouble[] [ldataOutputTestAdaptedqd, 
double[][] dataOutputTargetTestAdapted) { 
int TP = 0; 
int TN = 0; 
int FP = 0; 
int FN = 0; 
for (int m = 0; m < getTargetData().length; mt+) { 
if ( ( dataOutputTargetTestAdapted[m] [0] == 1.0 
&&dataOutputTargetTestAdapted[m] [1] == 0.0 ) 
&& ( dataOutputTestAdapted[m] [0] == 1.0 
&&dataOutputTestAdapted[m] [1] == 0.0) ) { 
TP++; 
} else if ( ( dataOutputTargetTestAdapted[m] [0] == 0.0 
&&dataOutputTargetTestAdapted[m] [1] == 1.0 ) 
&& (dataOutputTestAdapted[m] [0] == 0.0 
&&dataOutputTestAdapted[m] [1] == 1.0) ) { 
TN++; 
} else if ( ( dataOutputTargetTestAdapted[m] [0] == 1.0 
&&dataOutputTargetTestAdapted[m] [1] == 0.0 ) 
&& (dataOutputTestAdapted[m] [0] == 0.0 
&&dataOutputTestAdapted[m] [1] == 1.0) ) { 
FP++; 
} else if ( ( dataOutputTargetTestAdapted[m] [0] == 0.0 
&&dataOutputTargetTestAdapted[m] [1] == 1.0 ) 
&& (dataOutputTestAdapted[m] [0] == 1.0 
&&dataOutputTestAdapted[m] [1] == 0.0) ) { 
FN++; 
} 
} 
return new double[][] {{TP, FN}, {FP,IN}}; 


} 


在 类 NeuralOutputData 中 实现 的 另 一 个 方法 是 calculatePerformanceMeasures。 它 以 混淆 矩阵 为 参数 ， 然 后 计算 并 输 如 下 性 能 指标 : 
- 正 例 的 错误 率 

. 负 例 的 错误 率 

. 总 的 错误 率 


` 总 的 准确 度 


特异 性 


该 方法 的 实现 代码 如 下 : 


public void calculatePerformanceMeasures (double[][] confMat) { 
double errorRatePositive = confMat[0][1] / (confMat[0] [0]+confMat [0] [1]); 
double errorRateNegative = confMat[1][0] / (confMat[1] [0]+confMat [1] [1]); 
double totalErrorRate = (confMat[0] [1] + confMat[1][0]) /(confMat[0] [0] + 
confMat [0] [1] + confMat[1] [0] + confMat[1][1]); 
double totalAccuracy = (confMat[0][0] + confMat[1][1]) / (confMat[0] [0] 


+ confMat[0] [1] + confMat[1] [0] + confMat [1] [1] 


) 
double precision = confMat[0][0] / (confMat[0] [0]+confMat [1] [0]); 
double sensibility = confMat[0][0] / (confMat [0] [0]+confMat[0][1]); 
double specificity = confMat[1][1] / (confMat[1] [0]+confMat[1][1]); 
System.out.println ("### PERFORMANCE MEASURES ###") ; 
System.out.println ("positive class errorrate:"+ (errorRatePositive*100.0) 
+S") ; 
System.out.println ("negative class error rate:"+(errorRateNegative*100.0) 
+S") ; 
System.out.printiln ("total error rate:"+(totalErrorRate*100.0)+"%"); 
System.out.printin ("total accuracy: "+(totalAccuracy*100.0)+"%S") ; 
System.out.printin("precision: "+ (precision*100.0)+"%") ; 
System.out.printin("sensibility: "+(sensibility*100.0)+"%S"); 
System.out.println("specificity: "+(specificity*100.0)+"%"); 


6.3 ”分 类 伸 经 网 络 


分 类 任务 可 以 由 本 书 介 绍 过 的 任意 一 种 监督 神经 网 络 来 完成 。 然 而 ， 建 议 使 用 类 似 MLP 的 更 复杂 的 结构 。 本 章 中 用 NeuralNet 类 来 构建 只 有 一 个 隐 含 层 的 神经 网 络 ， 输 出 层 使 用 sigmoid 函 数 。 每 个 输 


N 
出 神经 元 都 是 一 个 类 。 


示例 的 实现 代码 非常 类 似 于 测试 类 (BackpropagationTest) 。 然 而 ，Diagnosis Example 类 会 询问 用 户 所 用 的 数据 集 和 神经 网 络 参 数 ， 例 如 ， 和 迭代 次 数 、 隐 含 层 神经 元 个 数 和 学 习 率 。 


6.4 用 伸 经 网 络 进行 疾病 识别 


对 于 疾病 识别 ， 我 们 将 使 用 免费 开源 数据 集 proben1， 该 数据 集 通 过 链接 (http://www .filewatcher.com/m/proben1.tar.gz.1782734-0.html) 可 以 获得 。Proben1 是 来 自 不 同 领域 的 几 个 数据 集 的 
基准 集 。 我 们 将 使 用 其 中 的 癌症 和 糖尿 病 数据 集 。 添 加 一 个 类 DiagnosisExample 来 运行 每 个 案例 的 实验 。 


6.4.1 FUREMRA!) 


乳腺 癌 数 据 集 由 10 个 变量 组 成 ， 其 中 9 个 是 输入 数据 ，1 个 是 二 进 制 输出 。 该 数据 集 共 有 699 条 记录 ， 但 是 我 们 去 掉 了 其 中 16 条 不 完整 的 数据 记录 ， 使 用 剩 下 的 683 条 来 训练 和 测试 神经 网 络 。 
Giz 在 实际 问题 中 ， 缺 失 数据 和 无 效 数 据 是 很 常见 的 。 理 想 情 况 下 ， 分 类 算法 必须 处 理 这 些 记 录 ， 一 般 是 建议 去 掉 这 些 记 录 ， 因 为 这 些 数据 含有 的 信息 不 足以 生成 准确 的 结果 。 
这 类 数据 集 的 配置 见 表 6-4。 
表 6-4 数据 集 配 置 
变量 名 类 型 最 大 值 和 最 小 值 

诊断 结果 输出 [0: 1] 

结 块 厚 度 输入 #1 [1: 10] 

细胞 大 小 的 均匀 性 输入 #2 [1: 10] 

细胞 形状 的 均匀 性 输入 #3 [1: 10] 

边 绿 粘连 输入 #4 [1: 10] 

单 上 皮 细 胞 大 小 输入 #5 [1; 10] 

RAZ 输入 #6 [1: 10] 

微 受 激 染色 质 输入 #7 [1: 10] 

正常 核 输入 #8 [1: 10] 

AATA 输入 #9 [1: 10] 


iii 


所 以 ， 初 步 的 神经 网 络 如 图 6-8 所 示 。 
数据 集 划分 如 下 。 
. 训练 集 : 549 (80%) 。 


测试 集 : 134 (20%) o 


Boi ， ， 输出 层 


分 类 估计 


INPUT#9 


在 前 面 的 例子 中 ， 我 们 做 了 很 多 次 实验 ， 试 图 找到 最 好 的 神经 网 络 以 区 分 癌症 到 底 是 良性 的 还 是 恶性 的 。 因 此 ， 这 里 进行 了 12 个 不 同 的 实验 (SSIMIAIT1000R) ， 并 分 析 了 MSE 和 准确 性 。 之 后 ， 
又 对 测试 集 生成 的 混淆 矩阵 、 灵 敏 性 和 特异 性 进行 了 分 析 。 最 后 ， 又 对 泛 化 进行 了 分 析 。 实 验 中 涉及 的 神经 网 络 见 表 6-5。 


图 6-8 癌症 预测 的 初步 神经 网 络 


表 6-5 ”实验 中 的 神经 网 络 


实验 隐 含 层 神经 元 个 数 激活 西数 


#] 隐 含 层 : SIGLOG 
T 输出 层 : LINEAR 
#7 | KAJE: HYPERTAN 
UR: LINEAR 
#3 Ki Ge: SIGLOG 
3 5 输出 层 : LINEAR 
HA i 给 含 层 : HYPERTAN 
Output Layer: LINEAR 
#5 hive eB: SIGLOG 
l n 输出 层 : LINEAR 
#6 隐 含 屋 ， HYPERTAN 
输出 层 : LINEAR 
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实验 隐 含 层 神经 元 个 数 激活 西数 


隐 含 层 : SIGLOG 
#7 N 
ne 输出 层 : LINEAR 
ue | KAJE: HYPERTAN 
i 输出 层 : LINEAR 
46 隐 含 层 : SIGLOG 
= 
> 输出 层 : LINEAR 
KAJE: HYPERTAN 
#10 ws 
输出 层 : LINEAR 
i ag JHE: SIGLOG 
; w 输出 层 : LINEAR 
me i =. HYPERTAN 
输出 层 : LINEAR 


每 次 实验 之 后 ， 我 们 收集 MSE 的 值 ( 表 X) ; 实验 #4、#8、#9、#10、#11 是 等 价 的 ， 因 为 它们 有 很 低 的 MSE 值 和 相同 的 总 准确 率 (92.5%) 。 因 此 ， 选 择 实验 #4 和 #11， 因 为 它们 是 前 述 五 个 实验 中 
MSE 值 最 低 的 两 个 ，MSE 值 和 总 准确 率 见 表 6-6。 


Y 


表 6-6 ”实验 中 的 MSE 和 总 准确 率 


实验 MSE 训练 速率 总 准确 率 
#1 0.010 67 96.29% 


#2 0.004 43 98.50% 
#3 9.996 11E-4 97.77% 
#4 9.999 13E-4 99.25% 
#5 9.996 70E-4 96.26% 

9.925 78E-4 97.03% 
#7 0.013 92 98.49% 
#8 0.003 67 99.25% 
#9 9.999 28E-4 99.25% 
#10 9.999 S51E-4 99.25% 
#11] 9.999 26E-4 99.25% 
3.44% 
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由 表 6-6 可 见 ，MSE 变 化 速度 非常 快 ， 从 第 四 次 实验 的 误差 变化 图 也 可 以 看 出 ， 变 化 图 如 图 6-9 所 示 。 昌 然 迭 代 了 1000 次 ,但 是 因为 达到 了 最 小 总 误差 (0.001) ， 实 验 是 提前 停止 的 。 


Error Evolution 


Error Evolution 


0,15 

0,10 

35 40 
Epoch 


Æ Train Error -æ Test Error | 


图 6-9 ”实验 #4 误差 变化 图 
实验 友和 实验 #11 的 混淆 矩阵 、 敏 感性 和 特异 性 见 表 6-7。 可 以 对 比 两 种 实验 结果 是 否 相同 。 
表 6-7 “实验 #4 和 实验 #11 的 对 照 表 


实验 RAER 特异 性 


[34.0, 1.0] 


#4 100.0% 
0.00, 99.0]] 
| [34.0, 1.0] | 
#11 100.0% 
0.00, 99.0]] 
如 果 必 须 从 实验 #4 和 实验 #11 所 生成 的 模型 中 选择 一 个 ， 建 议 选 择 实验 #4， 因 为 它 比 实验 #11 更 简单 (在 隐 含 层 中 有 较 少 的 神经 元 ) 。 
6.4.2 糖尿病 识别 
另 一 个 要 探讨 的 例子 是 糖尿 病 诊断 。 这 个 数据 集 有 8 个 输入 ，1 个 输出 ， 见 表 6-8。 该 数据 集中 共有 768 条 记录 ， 全 部 是 完整 的 。 然 而 ，proben1 中 有 几 个 无 意义 的 0 值 ， 很 可 能 表明 数据 缺失 。 为 了 使 这 


些 数 据 看 起 来 更 真实 ， 往 数据 集中 引入 了 一 些 错 误 (或 噪声 ) 。 


表 6-8 ”糖尿病 数据 集 


变量 名 最 大 值 和 最 小 值 
诊断 结果 (0; 1] 
怀孕 次 数 [0.0: 17] 
口服 葡萄 糖 两 小 时 后 血浆 葡萄 糖 浓度 [0.0: 199] 
舒张 斥 (mmHg) [0.0; 122] 
Wh = SK WU EE (mm) [0.0: 99] 
PA |S ASP af ep Ey Ze (mu U/ml) [0.0; 744] 
体 脂 数 (kg/m? ) 输入 #6 [0.0: 67.1] 
桩 尿 病 家 系 机 能 [0.078: 2 420] 
ER G ET 

数据 集 划 分 如 下 。 


- MAR: 671 条 记录 (80%) 。 
测试 集 : 151 条 记录 (20%) 。 


为 了 找到 最 好 的 神经 网 络 拓扑 结构 来 识别 糖尿 病 ， 我 们 运用 上 一 节 描 述 的 相同 分 析 方 法 及 相同 的 神经 网 络 模式 。 然 而 ， 在 输出 层 运 用 了 多 分 类 : 输出 层 有 两 个 神经 元 ， 一 个 表示 糖尿 病 存 在 ， 另 一 个 表 
示 不 人 存在。 所 以 ， 本 例 建议 的 神经 网 络 结构 如 图 6-10 所 示 。 


估计 的 
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图 6-10 糖尿病 预测 的 初步 神经 网 络 


MSE 训 | 练 速率 和 前 6 个 实验 与 后 6 个 实验 的 总 准确 率 见 表 6-9。 


表 6-9 ”实验 中 的 MSE 和 总 准确 率 


实验 MSE 训练 速率 总 准确 率 
#] 0.008 07 60.54% 
#2 0.005 90 71.03% 
#3 9.999 90E-4 75.49% 
#4 9.988 40E-4 74.17% 
#5 0.001 84 61.58% 
9.827 74E-4 59.86% 
#7 0.007 06 63.57% 


N 


#8 0.005 84 72.41% 
#9 9.999 94E-4 74.66% 
#10 0.010 47 72.14% 
#1] 0.003 16 59.86% 
#12 0.434 64 40.13% 


H 
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两 种 情况 下 ，MSE 下 降 速度 都 很 快 ， 但 是 ， 实 验 #9 在 第 一 个 值 中 造成 了 错误 率 的 增加 ， 如 图 6-11 所 示 。 


Error Evolution 


Error Evolution 


7O 30 90 100 110 120 130 
Epoch 


4 Train Error -æ Test Error 


图 6-11 ”实验 #9 的 误差 变化 图 
混淆 和 矩 阵 的 分 析 和 度量 也 和 癌症 预测 非常 相似 ， 见 表 6-10。 
表 6-10 RABE DMRPEE 
rh N= IN = 
实验 混淆 矩阵 特异 性 


[[35.0, 12.0] 
[25.0, 79.0]] 


[[34.0, 12.0] 
[26.0, 78.0]] 


#9 


这 次 仍然 建议 选择 最 简单 的 模型 ， 即 由 实验 #3 产生 的 人 工 神经 网 络 模 型 。 


过 继承 概念 编写 的 代码 。 


isi 
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6.5 本章 小 结 
本 章 介 绍 了 运用 神经 网 络 进 行 疾病 识别 的 两 个 应 用 案例 。 为 了 更 好 地 理解 本 章 所 探讨 的 问题 ， 简 要 地 回顾 了 分 类 问题 的 基本 原理 。 分 类 问题 属于 机 器 学 习 / 数 据 挖 握 领域 中 最 常见 的 监督 学 习 问 题 ， 而 神 


经 网 络 被 证 明 非 常 适合 于 解决 这 类 问题 。 此 外 ， 还 介绍 了 评估 分 类 任务 的 评估 概念 ， 如 灵敏 性 、 特 异性 及 混淆 矩阵 等 。 这 些 概念 对 所 有 分 类 任务 都 很 有 用 ， 包 含 除了 神经 网 络 之 外 的 其 他 算法 。 下 一 章 将 探 
讨 类 似 的 任务 ， 但 是 使 用 无 监督 学 习 ， 也 就 是 说 ， 没 有 预期 输出 数据 。 然 而 本 章 所 介绍 的 基本 原理 也 是 有 帮助 的 。 


Ble SPAR 


Mk 


运用 无 监督 学 习 神 经 网 络 的 惊人 能 力 之 一 ， 是 它 能 够 从 数据 中 发 现 一 些 连 专家 都 富 无 头绪 的 隐藏 模式 。 本 章 将 通过 一 个 实际 的 应 用 来 探索 这 个 迷人 的 特性 ， 以 寻找 事务 数据 库 中 的 客户 和 商品 聚 类 。 首 
先 回顾 一 下 无 监督 学 习 和 聚 类 问题 。 为 演示 相关 应 用 ， 本 章 将 提供 一 个 关于 客户 画像 的 实际 例子 及 它 的 Java 实 现 。 本 章 将 讨论 以 下 主题 : 


- 聚 类 任务 

` 聚 类 分 析 
‘RRP 

. 应 用 无 监督 学 习 

. 径 向 基 函 数 神经 网 络 
- Kohonen 神 经 网 络 

` 处 理 数 据 类 型 

. 客户 画像 

> 预 处 理 

Java 实现 


` 客户 画像 和 信用 分 析 


11 RREK 


类 是 广义 数据 分 析 的 一 部 分 ， 目 标 是 将 看 起 来 更 相似 的 元 素 分 成 一 组 或 一 艇 。 因 为 不 需要 引入 任何 目标 输出 来 寻找 艇 ， 所 以 聚 类 任务 完全 基于 无 监督 学 习 。 但 是 ， 解 决 方案 设计 人 员 可 能 会 选择 一 些 
他 们 想 要 分 成 的 艇 ,用 于 检查 算法 的 反应 。 


Ad 


M8 示 。 取 类 任务 和 分 类 任务 至 关 重要 的 不 同 是 ， 聚 类 算法 运行 之 前 不 需要 一 组 预定 义 的 类 别 。 


当 没 有 太 多 或 者 根本 没有 关于 如 何 将 数据 分 组 的 有 用 信息 时 ， 可 以 使 用 聚 类 。 根 据 提供 的 数据 ， 我 们 希望 神经 网 络 可 以 识别 出 群 组 及 其 成 员 。 虽 然 在 二 维 数据 集 上 做 可 视 化 看 起 来 很 简单 直观 ， 如 图 7-1 
所 示 ， 但 当 维度 更 高 时 ， 这 个 任务 并 不 那么 简单 ， 需 要 一 个 算法 解决 方案 。 


图 7-1 Hes i] RK 


在 聚 类 中 ， 复 的 数量 不 是 由 数据 本 身 决定 的 ， 而 是 由 数据 分 析 人 员 决 定 的 。 这 里 的 边界 和 分 类 任务 有 所 不 同 ， 因 为 它们 主要 依赖 于 篮 的 数量 。 


在 聚 类 任务 中 ， 即 无 监督 学 习 中 ， 一 个 难点 是 如 何 评估 结果 的 准确 性 。 监 督学 习 有 一 个 已 定义 好 的 目标 ， 基 于 这 个 目标 可 以 推出 一 个 误差 度量 或 者 混淆 和 矩 了 别 ， 而 对 于 无 监督 学 习 ， 质 量 的 评估 完全 不 
同 ， 它 完全 依赖 于 数据 本 身 。 验 证 标准 包括 数据 在 类 簇 之 间 的 分 布 情况 ， 以 及 外 部 专家 对 数据 的 意见 。 

Giz 举例 说 明 ， 假 设 一 个 植物 的 聚 类 任务 ， 给 出 它们 的 特征 〈 大 小 、 叶 子 颜色 、 结 果 周 期 等 ) , Ai A MBIA S Fo TARP o HD RARE OAT Ek AY E ho 
识 ， 肯 定 不 会 认可 这 个 分 类 ， 因 为 这 种 分 类 并 不 合理 。 

聚 类 有 两 个 主要 问题 。 一 个 是 神经 网 络 的 某 个 输出 永远 不 会 被 激活 ， 意 味 着 数据 集中 没有 任何 与 这 个 簇 相关 的 数据 点 。 另 一 个 是 非 线 性 或 稀 琉 簇 的 问题 ， 也 就 是 说 原本 只 属于 一 个 艇 的 数据 被 错误 地 分 
成 多 个 艇 ， 如 图 7-2 所 示 。 


图 7-2 聚 类 的 两 个 主要 问题 


7.1.2 聚 类 评估 和 | 验证 


遗憾 的 是 ， 如 果 神 经 网 络 聚 类 效果 不 佳 ， 就 需要 重新 定义 簇 的 数量 或 进行 额外 的 数据 预 处 理 。 为 了 评估 聚 类 效果 ， 可 以 应 用 Davies-Bouldin 指 数 和 Dunn 指 数 。 


为 了 寻找 艇 和 艇 成 员 之 间 的 距离 ，Davies-Boudin 指 数 引 入 艇 的 重心 : 


O, TO. 


max 
Jm Cyc, 


式 中 ，n 是 簇 的 数量 ，ci 是 艇 的 重心 ，oi 是 艇 | 中 所 有 元 素 的 平均 距离 ，d (cj, c) 是 艇 0 簇 j 之 间 的 距离 。DB 指 数 越 小 ， 神 经 网 络 的 聚 类 效果 越 好 .。 


然而 ， 对 于 稠密 和 稀 跑 的 艇 ,DB 指数 并 不 能 提供 很 多 有 效 信息 。 可 以 用 Dunn 指 数 来 克服 这 种 局 限 性 : 


d (i, j) 是 艇 0 簇 j 之 间 的 距离 ，d' (k) 是 复 k 的 篮 内 距离 。Dunn 指 数 越 大 ， 聚 类 效果 越 好 ， 因 为 即使 篮 稀 芷 ， 它 们 也 需要 聚 类 在 一 起 ， 复 内 距离 大 意味 着 聚 类 并 不 理想 。 


7.1.3 ”实现 


在 CompetitiveLearning 类 中 ， 要 实现 这 些 指数 。 


public double DBIndex (){ 
int numberOfClusters = this.neuralNet.getNumberOfOutputs () ; 
double sum=0.0; 
for(int i=0;i<numberOfClusters; i++) { 
double[] index = new double [numberOfClusters]; 
for(int j3=0;j<numberOfClusters; j++) { 
if (i!=j){ 
// calculate the average distance for cluster i 
Double Sigmai=averageDistance (i, trainingDataSet) ; 
Double Sigmaj=averageDistance (j, trainingDataSet) ; 
Double[] Centeri=neuralNet.getOutputLayer () .getNeuron (i). 
getWeights (); 
Double[] Centerj=neuralNet.getOutputLayer () .getNeuron(j). 
getWeights (); 
Double distance = getDistance (Centeri,Center}) ; 
index [j]=((Sigmait+Sigmaj) /distance) ; 


} 
} 
sumt+=ArrayOperations .max (index) ; 
} 
return sum/numberOfClusters; 


} 


public double Dunn () { 
int numberOfClusters = this.neuralNet.getNumberOfOutputs () ; 
ArrayList<double> interclusterDistance; 

for(int i=0;i<numberOfClusters;i++) { 

for(int jJ=it+1;j<numberOfClusters; j++) { 
interClusterDistance.add(minInterClusterDistance (i,j,trainingDataSet) ; 
} 

} 

ArrayList<double> intraclusterDistance; 

for(int k=0;k<numberOfClusters; k++) { 
intraclusterDistance. add (maxIntraClusterDistance (k, trainingDataSet) ; 


<~ 


} 
return ArrayOperations .Min (interclusterDistance) / ArrayOperations. 
Max (intraclusterDistance) ; 


} 


7.1.4 外 部 验证 


在 某 些 情况 下 ， 聚 类 本 身 就 是 存在 预期 结果 的 ， 比 如 植物 聚 类 ， 这 称 为 外 部 验证 。 可 以 对 已 经 分 配 了 数值 的 簇 数 据 ， 应 用 无 监督 


输出 ， 因 此 期 待 算法 只 依赖 特征 数据 就 能 画 出 篮 的 边界 线 。 


在 神经 网 络 中 ， 有 很 多 结构 实现 了 无 监督 学 习 。 然 而 ， 本 书 只 涵盖 了 Kohonen 神 经 网 络 ， 它 在 第 4 章 中 介绍 过 。 


kohonen 神 经 网 络 


第 4 章 已 经 介绍 过 Kohonen 神 经 网 络 ， 现 在 将 以 不 同 的 方式 来 使 用 它 。Kohonen 可 以 产生 一 维 或 二 维 的 输出 ， 但 在 聚 类 场景 下 ， 它 可 以 只 缩减 为 


学 习 神 经 网 络 进行 聚 类 。j 


这 与 分 类 的 主要 区 别 在 于 ， 聚 类 不 会 考虑 目标 


Giz 实际 上 ，Kohonen 神 经 网 络 实现 的 这 个 框架 支持 零 维 、 一 维和 二 维 ， 零 维 意味 着 输出 神经 元 之 间 没 有 连接 ， 一 维 意味 着 它们 连 成 了 线 ， 二 维 意味 着 它们 形成 了 网 格 。 在 本 章 的 例子 中 ， 我 们 需 


要 一 个 输出 神经 元 之 间 无 连接 的 Kohonen 网 络 ， 所 以 维度 将 为 零 。 
此 外 ， 簇 之 间 可 能 有 关联 ， 也 可 能 无 关联 ， 所 以 在 本 章 中 ， 神 经 元 的 邻 域 可 以 忽略 ， 这 意味 着 只 有 一 个 神经 元 将 会 被 激活 ， 而 它 的 邻居 保持 不 变 。 因 此 ， 神 经 网 络 将 调整 权重 来 让 数据 匹配 复数 组 ， 如 


图 7-3 所 示 。 


图 7-3 ”输入 数据 与 徐 匹 配 


训练 算法 是 一 种 竞争 学 习 方法 ， 其 中 输出 最 大 的 神经 元 的 权重 将 会 调整 。 在 训 | 练 结 束 时 ， 神 经 网 络 的 所 有 艇 都 将 被 定义 。 注 意 ， 输 出 神经 元 之 间 没 有 连接 ， 意 味 着 在 输出 中 只 有 一 个 输入 是 激活 的 。 


7.3 ERSTE 
画像 或 者 信息 聚 类 是 无 监督 学 习 中 最 有 趣 的 任务 之 一 ， 本 章 中 称 为 客户 或 商品 聚 类 。 给 定 一 个 数据 集 ， 我 们 希望 能 找 出 具有 相似 特征 的 记录 组 。 例 如 购买 相同 商品 的 顾客 ， 或 者 经 常 一 起 购买 的 商品 。 
它 提供 的 顾客 和 商品 所 属 群 组 的 信息 ， 能 够 更 准确 地 刻画 顾客 和 商品 。 


这 个 任务 给 商家 带 来 许多 好 处 ， 通 过 它 


7.3.1 预 处 理 
正如 第 6 章 中 所 见 ， 事 务 数据 库 既 可 以 保存 数值 数据 ， 也 可 以 保存 分 类 数据 。 无 论 何 时 ， 当 遇 到 一 个 不 可 缩放 的 分 类 变量 时 ， 我 们 需要 使 用 CategoricalDataSet 类 将 其 分 割 成 能 够 代表 这 个 变量 的 一 系 


列 值 。 例 如 ， 我 们 有 以 下 顾客 的 交易 列表 ， 见 表 7-1。 
表 7-1 顾客 的 交易 列表 


Kh 
Na 
口 


Re E an 


1 399 56 ÆW, mE, Hih 4.30 
1 400 99] Wg, FY 2.30 5.60 
1 401 406 mH, F © o0 8.80 
1 402 239 美 乃 涕 ， 香 料 E | 6.70 
1 404 406 KAS, BT, ARB 1.00 9.00 


容易 看 出 ， 商 品 就 是 不 可 缩放 的 分 类 数据 ， 并 且 对 于 每 笔 交 易 ， 商 品 的 购买 数量 都 是 不 定 的 ， 顾 客 可 能 购买 一 个 或 多 个 。 为 了 将 这 个 数据 集 转换 为 数值 型 数据 集 ， 需 要 进行 预 处 理 。 对 于 每 个 商品 记 
录 ， 都 会 向 数据 集中 插入 一 个 值 ， 效 果 见 表 7-2。 


表 7-2 用 户 购买 记录 (数值 型 ) 


i 
> 
BY 


小 
=] 
Cn 
ex | gue | 
Si 
— -一 EH 
中 
一 — EH 
H+ 
i = 
ai 
=o 
SN 
wa | ie 而 
we 


为 了 节约 篇 幅 ， 我 们 不 使 用 数值 型 变量 ， 而 是 将 顾客 购买 了 商品 记 为 1， 没 有 购买 记 为 0。 另 一 种 预 处 理 方法 是 将 购买 次 数 用 一 个 值 来 表示 ， 这 样 就 不 再 是 二 进 制 的 ， 而 是 离散 的 。 


7.3.2 ”Java 实现 


本 章 将 探索 Kohonen 神 经 网 络 的 用 法 ， 基 于 Proben1 (信用 卡 数 据 集 ) 搜集 的 顾客 信息 对 顾客 进行 聚 类 。 


7.3.3 “信用卡 一 一 客户 画像 信用 分 析 


这 个 信用 卡 数据 集 总 共 由 16 个 变量 组 成 。 其 中 15 个 是 输入 ， 一 个 是 输出 。 出 于 安全 原因 ， 所 有 变量 名 都 更 改 为 无 意义 的 符号 。 这 个 数据 集 很 好 地 混合 了 各 种 变量 类 型 (连续 型 ， 少 量 数 值 型 和 大 量 分 类 
型 ) o 变量 描述 见 表 7-3，。 


Ke 
HID 
: 
ie 
int 


变量 类 型 ff 


V5 INPUT #4 u, y, 1, t. 
V6 INPUT #5 g, p. gg 
V7 INPUT #6 c,d, cc, 1,4, ky. & Gg; re aa,dt 
V8 INPUT #7 v, h, bb, j, n, z, dd, ff, o 
V9 INPUT #8 连续 的 
INPUT #9 t, f 
V11 INPUT #10 if 
V12 INPUT #11 连续 的 
V13 INPUT #12 t, f 
V14 INPUT #13 g, P, 8 
V15 INPUT #14 连续 的 
V16 INPUT #15 连续 的 


a 
— 
© 


为 简单 起 见 ， 不 使 用 输入 变量 V5 ~ V8 及 V14。 为 了 避免 输入 的 数据 量 膨胀 太 大 ， 进 行 如 下 变换 ， 见 表 7-4。 


表 7-4 最 终 使 用 的 变量 


T = 
V3 连续 的 Te 
V4 连续 的 无 
V12 连续 的 无 
V15 连续 的 无 
V16 连续 的 无 


神经 网 络 拓扑 结构 如 图 7-4 所 示 。 


HAJS 


y2 
V3 
v4 
v9 
V10 
V11 
V12 
V13 
V15 


V16 


图 7-4 神经 网 络 拓扑 结构 


一 共有 690 条 数据 ， 但 其 中 37 条 有 数据 缺失 ， 丢 弃 这 37 条 记录 。 因 此 ， 剩 余 的 653 条 数据 用 于 训练 和 测试 神经 网 络 。 数 据 集 划 分 如 下 。 
. 训练 集 : 583 条 数据 
. 测试 集 : 70 标 数据 


Kohonen 训 | 练 算法 基于 一 些 参 数 来 对 行为 相似 的 数据 进行 聚 类 ， 比 如 : 


. 归 一 化 类 型 

值得 注意 的 是 ，Kohonen 训 练 算法 是 无 监督 的 。 所 以 ， 这 个 算法 用 于 输出 未 知 的 情况 。 在 信用 卡 示例 中 ， 数 据 集中 的 输出 值 仅 用 于 检测 聚 类 效果 。 但 在 传统 的 聚 类 任务 中 ， 一 般 没 有 输出 值 。 
在 这 个 特定 的 情况 下 ， 由 于 作为 类 别 ， 输 出 值 是 已 知 的， 因此 聚 类 效果 可 以 通过 以 下 几 个 指标 评估 : 

“ 敏感 性 〈 真 阳性 率 ) 

特异 性 〈 真 阴性 率 ) 

+ 整体 准确 率 

在 Java 项 目 中 ， 通 过 第 6 章 介绍 的 类 NeuralOutputData 来 计算 这 些 值 。 

多 做 一 些 客户 画像 聚 类 实验 试图 找到 最 好 的 神经 网 络 ， 是 一 种 很 好 的 实践 方法 。 做 10 个 不 同 的 实验 ， 每 个 实验 都 将 用 之 前 提 到 的 质量 率 进 行 分 析 。 表 7-5 展 示 了 实验 策略 。 


RI-5 ”实验 策略 


=i 


#1 or MIN MAX 
#2 Z SCORE 


Ls 
fy 
( =}. ) 
= 了 人 Whe | Ce 类 | 
is j j 7 
#3 MIN MAX 
#4 Z SCORE 
#5 MIN MAX 
#7 MIN MAX 
#8 Z SCORE 
创建 ClusterExample 类 来 运行 每 个 实验 。 除 了 第 4 章 的 处 理 数 据 之 外 ， 它 还 介绍 了 如 何 创建 一 个 Kohonen 网 络 ， 以 及 如 何 通 过 欧 氏 距离 算法 来 训练 。 
下 面 的 代码 段 展示 了 它 的 一 些 实现 : 
// enter neural net parameter via keyboard (omitted) 
// load dataset from external file (omitted) 
// data normalization (omitted) 
// create ANN and define parameters to TRAIN: 
CompetitiveLearning cl = new CompetitiveLearning (kn1,neuralDataSetToTrain, 
LearningAlgorithm. LearningMode.ONLINE) ; 
cl.show2DData=false; 
cl.printTraining=false; 
cl.setLearningRate( typedLearningRate ); 
cl.setMaxEpochs( typedEpochs ); 
cl.setReferenceEpoch( 200 ); 
cl.setTestingDataSet (neuralDataSetToTest) ; 
// train ANN 
try { 
System.out.println ("Training neural nethttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... Please, waithttp://www.hzcc 
cl.train(); 
System.out.println("Winner neurons (clustering result [TRAIN]):"); 
System.out.printin( Arrays.toString (cl.getIndexWinnerNeurontTrain () 


) ) 7 
catch (NeuralException ne) { 
ne.printStackTrace (); 


iya 


f+ĦClusteringExamples Z T TA aH ees RER BRIS, ARR7-ORILAMRRS, SIHA #6, #8F0# 0AE EAER, KEE Az-scorc ARIE 


表 7-6 10 次 实验 的 准确 率 和 混淆 矩阵 


#1 [[14.0, 21.0] [18.0, 17.0] 44.28% 


实验 混淆 矩阵 总 准确 率 
0,21, ] 

#2 [[11.0, 24.0] [34.0, 1.0] 17.14% 
, 14.0] [17. ] 


, 1.0]] 

#3 [[21.0, 14.0] [17.0, 18.0] 55.71% 
#4 [[24.0, 11.0] [1.0, 34.0]] 82.85% 
#6 [[24.0, 11.0] [1.0, 34.0]] 82.85% 
#7 [[8.0, 27.0] [7.0, 28.0]] 51.42% 
#8 [[24.0, 11.0] [1.0, 34.0]] 82.85% 
#10 [[24.0, 11.0] [1.0, 34.0]] 82.85% 


所 以 ， 实 验 #4、#6、#8 或 #10 所 创建 的 神经 网 络 能 够 达到 80% 以 上 的 准确 率 ， 可 以 在 经 济 上 用 于 客户 聚 类 。 


7.3.4 产品 画像 


使 用 一 个 事务 数据 库 ， 将 650 条 购买 交易 记录 放 入 一 个 包含 x 个 交易 商品 的 大 型 矩阵 中 ， 每 个 单元 格 表示 某 种 商品 在 某 一 次 交易 中 购买 的 数量 ， 见 表 7-7。 


表 7-7 交易 商品 矩阵 


EE oe le EE EE EC EC EE EE 


这 个 矩阵 是 N 维 超 空 间 的 一 个 表示 ， 把 每 个 商品 看 作 一 个 维度 ， 把 交易 看 作 空 间 中 的 点 。 为 简单 起 见 ， 看 一 个 三 维 空间 的 例子 。 如 图 7-5 所 示 ， 根 据 每 种 商品 的 购买 数量 ， 一 次 交易 会 放置 在 图 中 相应 的 
位 置 。 


图 7-5 ”三维 空间 中 的 交易 点 
我 们 的 思路 是 想 通 过 对 交易 进行 聚 类 ， 以 找 出 哪些 商品 通常 一 起 购买 。 所 以 ， 我 们 将 使 用 一 个 Kohonen 神 经 网 络 ， 来 寻找 聚 类 中 心 所 处 的 商品 位 置 。 
这 里 的 数据 库 包 括 一 个 服装 商店 和 抽样 了 27 种 注册 商品 ， 见 表 7-8。 
表 7-8 商品 抽样 

1 fi A 

3 Ki B 

7 FEAR A 

8 印花 连衣裙 

girt U 

13 裤子 S 

16 儿童 连 体 裤 

17 iB 


43 百 菜 大 短裤 M 


76 TY: 
18 印花 工装 裤 42 宽松 上 衣 工 装 裤 106 Hiatt 


73.55 ZUR 


AM, -CRRA PETAR MSE. FLARE MAUI“ : 信息 标准 (如 Akaike 信 息 标 准 (AIC) ) 、 贝 叶 斯 信息 标准 (BIC) 和 中 心 到 数据 的 Mahalanobis 距 离 。 
如 果 读 者 对 这 些 标准 的 细节 感 兴趣 ， 可 以 查阅 参考 资料 。 


为 了 对 商品 示例 进行 测试 ， 我 们 还 应 使 用 ClusteringExamples 类 。 为 简单 起 见 ， 分 别 测试 了 3 个 篮 和 5 个 复 。 每 个 实验 迭代 1000 次 ， 学 习 率 是 0.5， 归 一 化 方法 是 MIN_MAX (-1，1) 。 实 验 结果 见 表 7- 


表 7-9 ”不同 竺 个 数 下 的 聚 类 实验 结果 对 有 照 


族 数 前 15 个 元 素 所 属 族 商品 购买 总 和 


275,585, 4, 3,2 
3 4.11, 6, 3, 2, 
252; 669,672; 7 
973; 585, 11; 5,2 
5 4, .11,.6,3,2 
2,269,672, 7 


观察 表 7-9， 我 们 发 现 购买 的 商品 总 数 大 于 600 的 被 分 到 了 同一 个 复 中 ， 上 此外， 购买 总 数 在 ?00 ~ SOOCIRIAITZE ST MR. Ble, AERAR STARE, AAR PRES OSLAT mE 
于 20 件 ， 数 据 集 很 多 情况 下 是 重合 的 。 


Qz 正如 第 6 章 中 所 推荐 的 ， 建 议 你 探索 ClustefingExamples 类 并 创建 一 个 GUI， 以 便 更 方便 地 选择 神经 网 络 参 数 。 可 以 尝试 通过 继承 来 复 用 代码 。 


另 一 个 小 提示 是 可 以 进一步 探索 商品 画像 示例 ， 改 变 神经 网 络 训 练 参数 、 类 徐 个 数 ， 并 尝试 其 他 方法 来 分 析 聚 类 结果 。 


74 本 章 小 结 


本 章 中 ， 使 用 Kohonen 神 经 网 络 绘制 客户 画像 。 与 分 类 任务 不 同 ， 聚 类 任务 不 考虑 期 望 输出 上 的 已 有 知识 ， 而 是 希望 神经 网 路 本 身 发 现 徐 。 然 而 ， 我 们 已 经 看 到 验证 技术 包含 外 部 验证 ， 可 以 认为 它 与 
目标 输出 的 比较 。 客 户 画像 很 重要 ， 因 为 它 可 以 为 企业 主 提供 更 准确 、 更 清晰 的 顾客 信息 ， 而 不 是 像 监督 学 习 那样 ， 人 为 地 指出 哪些 顾客 应 该 属于 哪个 群 组 。 完 全 由 数据 自身 来 获得 最 终结 果 ， 是 无 监督 学 
习 的 优势 。 


第 8 草 ”文本 识别 


众所周知 ， 人 类 阅读 和 识别 图 像 的 速度 比 任何 超级 计算 机 都 快 。 然 而 ， 到 目前 为 止 ， 神 经 网 络 在 监督 学 习 和 无 监督 学 习 中 都 展示 了 惊人 的 数据 学 习 能 力 。 本 章 介绍 一 个 关于 模式 识别 的 例子 ， 涉 及 光学 
字符 识别 。 神 经 网 络 可 以 通过 训练 来 识别 写 在 图 像 文 件 中 的 数字 。 本 章 将 讨论 以 下 主题 : 


+ 模式 识别 


“已 知 类 别 


» 未 知 类 别 
- 神经 网 络 实现 模式 识别 
- 多 层 感 知 机 

OCR 问题 

“ 预 处 理 和 类 定义 
Java 实现 


. 数字 识别 


8.1 模式 识别 


模式 是 一 组 看 起 来 相似 的 数据 和 元 素 ， 它 们 能 够 有 规律 地 出 现 并 且 一 再 重复 。 这 类 任务 可 以 通过 无 监督 学 习 聚 类 来 解决 。 然 而 ， 当 数据 有 标签 或 者 有 定义 好 的 类 别 时 ， 可 以 通过 监督 学 习 方法 解决 。 作 
为 人 类 ， 我 们 完成 这 个 任务 需 重 复 的 次 数 其 实 远 超 想象 。 当 看 到 物体 并 把 它 归 类 时 ， 我 们 其 实 是 在 识别 一 种 模式 。 此 外 ， 当 分 析 图 表 、 离 散 事 件 和 时 间 序 列 时 ， 我 们 可 能 会 发 现 一 些 事件 在 特定 的 条 件 下 有 
规律 地 重复 出 现 。 总 之 ， 通 过 观察 数据 可 以 学 到 模式 。 


模式 识别 包括 但 不 限于 以 下 示例 : 
-形状 识别 


* 物体 分 类 


”OCR 


8.1.1 Æe 


在 为 特定 域 预定 义 的 类 列表 中 ， 可 以 认为 每 个 类 是 一 种 模式 ， 因 此 每 条 数据 或 事件 都 属于 其 中 一 个 预定 义 类 。 
Giz 预定 义 类 型 通常 由 专家 提出 或 者 基于 本 领域 的 先 验 知识 而 得 到 。 同 样 ， 当 我 们 希望 将 数据 严格 地 分 类 为 一 个 预定 义 类 时 ， 预 先 定义 好 类 是 明智 的 。 


使 用 已 定义 类 进行 模式 识别 的 一 个 例子 是 动物 图 片 识别 ， 如 图 8-1 所 示 。 然 而 ， 这 个 模式 识别 器 应 该 接受 训练 ， 以 捕获 所 有 已 正式 定义 类 的 特征 。 在 这 个 例子 中 ， 展 示 了 8 张 动物 图 片 ， 它 们 属于 两 类 : 
哺乳 动物 和 鸟 类 。 由 于 这 是 一 种 监督 学 习 模 式 ， 因 此 应 该 为 神经 网 络 提供 足够 数量 的 图 片 ， 使 其 能 够 正确 地 对 图 片 进行 分 类 。 


当然 ， 有 了 时 分 类 可 能 失败 ， 主 要 是 由 于 神经 网 络 可 能 捕捉 了 图 像 中 相似 的 隐 苞 模式 ， 或 形状 的 细微 差别 。 例 如 ， 海 豚 有 鳍 状 肢 ,但 它 依然 是 哺乳 动物 。 有 时 ， 为 了 获得 更 准确 的 分 类 ， 有 必要 使 用 预 处 
理 ， 以 确保 神经 网 络 接收 合适 的 数据 用 于 分 类 。 


eek 


fi 


fi ie 
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图 8-1 动物 图 片 识 别 


8.1.2 类 未 和 


当 数 据 没有 被 打上 标签 并 且 没 有 预定 义 的 类 集 时 ， 它 是 一 个 无 监督 的 学 习 场 景 。 形 状 识别 是 一 个 好 例子 ， 因 为 形状 可 以 很 灵活 ， 有 无 数 的 边 、 顶 点 或 连 线 。 


图 8-2 形状 


如 图 8-2 所 示 ， 我 们 能 够 看 到 各 种 形状 并 且 希 望 整理 它们 ， 这 样 相 似 的 形状 可 以 分 在 同一 个 篮 中 。 基 于 图 8-2 中 呈现 的 形状 信息 ， 模 式 识 别 器 很 可 能 将 矩形 、 正 方形 和 三 角形 分 在 相同 的 组 。 然 而 ， 如 果 
我 们 呈现 给 模式 识别 器 的 信息 不 是 图 像 ， 而 是 带 有 边 和 顶点 的 坐标 图 ， 分 类 结果 可 能 会 有 一 些 变化 。 


总 之 ， 模 式 识别 任务 既 可 能 使 用 监督 学 习 ， 也 可 能 使 用 无 监督 学 习 ， 这 主要 取决 于 要 识别 的 目标 。 


8.2 ”神经 网 络 用 于 模式 识别 


对 于 模式 识别 ， 可 以 应 用 神经 网 络 的 多 层 感知 机 (监督 ) 和 Kohonen 网 络 (无 监督 ) 结构 。 对 于 前 者 ， 应 该 设置 为 分 类 问题 ， 即 数据 应 该 转换 成 X-Y 数 据 集 ， 对 于 X 中 的 每 个 数据 记录 在 Y 中 都 应 该 有 一 
个 相应 的 分 类 。 如 第 3 章 以 及 第 6 章 所 述 ， 分 类 问题 的 神经 网 络 输出 应 该 包含 所 有 可 能 的 类 ， 这 可 能 需要 对 输出 记录 进行 预 处 理 。 


对 于 无 监督 学 习 ， 则 不 需要 为 输出 打 标签 ， 但 输入 数据 应 该 结构 合理 。 提 醒 一 下 ， 两 种 神经 网 络 的 模式 如 图 8-3 所 示 。 
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图 8-3 MILP 及 Kohonen 


8.2.1 ”数据 了 预 处 理 


正如 第 6 章 和 第 7 章 中 看 到 的 ， 我 们 需要 处 理 所 有 可 能 的 数据 类 型 ， 即 数值 型 (连续 的 和 离散 的 ) 和 分 类 型 (有 序 的 或 不 可 伸缩 的 ) 。 


然而 ， 我 们 有 机 会 将 模式 识别 应 用 于 多 媒体 内 容 ， 比 如 图 片 和 视频 。 所 以 ， 多 媒体 内 容 可 以 处 理 吗 ?” 这 个 问题 的 答案 在 于 这 些 内 容 在 文件 中 的 存储 方式 。 例 如 ， 图 片 是 用 小 的 不 同 颜色 的 点 来 表示 的 ， 
叫 作 像素 。 每 种 颜色 都 可 以 使 用 RGB 符号 编码 ， 红 色 、 绿 色 和 蓝 色 的 不 同 强度 可 以 定义 人 眼 可 见 的 每 种 颜色 。 因 此 一 幅 100x 100 维 的 图 像 将 有 10000 个 像素 ， 每 个 像素 有 红色 、 绿 色 和 蓝 色 三 个 值 ， 总 共产 
生 30000 个 点 。 这 是 神经 网 络 图 像 处 理 的 挑战 。 


第 9 章 将 回顾 一 些 方法 ， 它 们 可 能 降低 这 一 庞大 的 维度 。 之 后 ， 可 以 把 图 像 视 为 一 个 数值 为 连续 值 的 大 矩阵 。 


为 了 简便 ， 本 章 将 仅 使 用 维度 较 小 的 灰 度 图 。 


8.2.2 文本 识别 (光学 字符 识别 |) 


许多 文档 现在 都 经 过 扫描 并 另存 为 图 片 ， 为 了 使 计算 机 能 够 应 用 编辑 和 文字 处 理 ， 有 必要 将 这 些 文档 转换 为 文字 。 但 是 ， 这 个 特性 面临 一 系列 挑战 : 


& 管 如 此 ， 人 类 还 是 可 以 很 容易 地 理解 和 阅读 质量 差 的 图 片 中 产生 的 文字 。 这 可 以 解释 为 ， 人 类 对 于 文字 符号 和 语言 中 的 词汇 已 经 非常 熟悉 。 为 了 成 功 地 识别 图 片 中 的 文字 ， 算 法 必须 熟悉 这 些 元 素 
af 
sF 


8.2.3” 数 子 识 别 


虽然 市 面 上 有 各 种 各 样 的 OCR 识 别 工具 ， 但 要 能 正确 地 识别 图 像 中 的 文本 对 算法 来 说 仍然 是 一 个 巨大 的 挑战 。 所 以 ， 我 们 把 应 用 限制 在 一 个 较 小 的 领域 上 ， 可 以 使 问题 简单 化 。 因 此 ， 本 章 中 将 实现 一 
个 神经 网 络 来 识别 图 像 上 0 ~ 9 的 数字 。 此 外 ， 为 了 简单 起 见 ， 图 像 将 会 被 标准 化 ， 并 且 维度 较 小 。 


8.2.4 数字 表示 


我 们 应 用 10x 10 (100 个 像素 ) 标准 尺寸 的 灰 度 图 ， 每 幅 图 像 有 100 个 灰 度 值 。 


如 图 8-4 所 示 ， 左 边 有 一 个 草图 代表 数字 3， 右 边 是 一 个 对 应 的 灰 度 值 矩阵 。 
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图 8-4 数字 3 的 灰 度 图 


我 们 应 用 这 个 预 处 理 ， 以 表示 这 个 应 用 程序 中 的 10 个 数字 。 


8.2.5 Java 实现 


为 了 识别 光学 字符 ， 我 们 需要 产生 神经 网 络 的 训练 和 测试 数据 。 在 本 例 中 ， 考 虑 从 0 ( 超 黑 ) 到 255 A) 的 数字 。 根 据 像素 处 理 ， 每 个 数字 都 创建 两 种 版 本 的 数据 : 一 个 用 于 训练 ， 另 一 个 用 于 测 
试 。 第 3 章 和 第 6 章 介绍 的 分 类 技术 将 会 在 这 里 使 用 。 


8.2.6 ”数据 生成 


在 微软 画图 工具 中 画 出 从 0 到 9 的 整数 。 这 些 图 像 已 经 转换 为 矩阵 ， 如 图 8-5 所 示 。 整 数 0 到 9 的 像素 值 都 是 灰色 的 。 


图 8-5 ” 务 出 的 整数 0 到 9 


为 每 个 数字 生成 5 种 变化 ， 其 中 一 种 是 完美 的 数字 ， 其 他 的 则 包含 通过 绘画 或 图 片 质 量 产生 的 噪声 。 
把 矩阵 的 每 一 行 合并 到 向 量 (Dtrain 和 Dtest) 中 ， 形 成 一 个 用 于 训练 和 测试 神经 网 络 的 模式 。 所 以 ， 神 经 网 络 的 输入 层 由 101 个 神经 元 组 成 。 


输出 数据 集 用 10 种 模式 表示 ， 每 一 个 都 有 一 个 更 具 表 达 性 的 值 1， 其 余 值 都 为 0。 因 此 ， 神 经 网 络 的 输出 层 将 有 10 个 神经 元 


8.2.7 ”神经 结构 

因此 ， 这 个 应 用 中 ， 神 经 网 络 将 有 100 个 输入 〈 对 于 10x10 像 素 大 小 的 图 像 ) 和 10 个 输出 ， 隐 合 层 神经 元 的 个 数 是 不 受 限制 的 ， 如 图 8-6 所 示 。 在 包 example.chapter08 中 创建 一 个 名 为 DigitExample 的 
类 来 处 理 这 个 应 用 。 如 图 8-6 所 示 ， 神 经 网 络 结构 的 参数 如 下 。 

. 神经 网 络 类 型 : 多 层 感知 机 


训练 算法 : 反 向 传播 


ERR: 1000 


最 小 整体 误差 : 0.001 


ES 
一 一 
Sy 
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OOO0O0O000000 
QOOOOOOOOO 
OOQOOOCO00O 
OOOQOQO00O0 
OOOOOOOOO0OO 
OOOOOOO0OO0O0OO 
OOO0O0O000000 
OOO0O0O000000 
OOOO0OO000000 


8.2.8 实验 


图 8-6 ”神经 网 络 结构 


像 前 面 介 绍 的 其 他 情况 一 样 ， 现 在 训练 几 个 网 络 ， 找 到 最 好 的 神经 网 络 结构 。 表 8- 1 总结 了 实验 集 略 。 


实验 


baa]: SIGLOG 
7 a 输出 层 : LINEAR 
inthe: SIGLOG 
输出 层 : LINEAR 
m 隐 售 层 : SIGLOG 
i 输出 层 : LINEAR 
j laaja: HYPERTAN 
i 输出 层 : LINEAR 
| bake: SIGLOG 
5 输出 层 : LINEAR 
隐 含 屋 : SIGLOG 
i 输出 层 : LINEAR 
加 bits le: HYPERTAN 
i 输出 层 : SIGLOG 
fale: HYPERTAN 
j Hih: SIGLOG 
m fale: HYPERTAN 


表 8-1 实验 策略 


=: SIGLOG 


Co a G Ot G G a O 


下 面 类 的 DigitExample 代 码 定义 了 如 何 创建 神经 网 络 来 读 取 数字 数据 : 


// enter neural net parameter via keyboard (omitted) 
// load dataset from external file (omitted) 

// data normalization (omitted) 
// create ANN and define parameters to TRAIN: 
Backpropagation backprop = new Backpropagation (nn, 


neuralDataSetToTrain, LearningAlgorithm. LearningMode. BATCH) ; 
backprop.setLearningRate( typedLearningRate ); 

backprop.setMaxEpochs ( typedEpochs ); 
backprop.setGeneralErrorMeasurement (Backpropagation.ErrorMeasurement. 
SimpleError) ; 
backprop.setOverallErrorMeasurement (Backpropagation.ErrorMeasurement. 
MSE) ; 
backprop.setMinOverallError (0.001) ; 
backprop.setMomentumRate (0.7) ; 


backprop.setTestingDataSet (neuralDataSetToTest) ; 
backprop.printTraining = true; 
backprop.showPlotError = true; 

// train ANN: 

try { 


backprop. forward () ; 

// neuralDataSetToTrain.printNeuralOutput () ; 
backprop.train(); 
System.out.printin ("End of training"); 


if (backprop.getMinOverallError() >= backprop.getOverallGeneral-Error()) { 
System.out.println ("Training successful!"); 

} else { 
System.out.println ("Training was unsuccessful"); 


} 
System.out.printiln ("Overall Error:" + String.valueOf (backprop. 
getOverallGeneralError())); 
System.out.println("Min Overall Error:" + String.value0t! 
getMinOverallError())); 

System.out.printin("Epochs of training:" + String. 

valueOf (backprop.getEpoch ())); 
} catch (NeuralException ne) { 

ne.printStackTrace () ; 


(backprop. 


} 
// test ANN (omitted) 


8.2.9 结果 
在 使 用 DigitExample 类 运行 每 个 实验 之 后 ， 排 除 训练 和 测试 的 整体 误差 以 及 测试 数据 的 正确 分 类 数量 ， 见 表 8-2， 可 以 观察 出 实验 #2 和 实验 #4 的 MSE 值 是 最 低 的 。 这 两 个 实验 的 不 同 之 处 在 于 输出 层 所 
使 用 的 学 习 率 和 激活 函数 。 


表 8-2 ”实验 结果 


实验 训练 整体 误差 正确 分 类 的 比例 (样本 总 数 为 10 ) 


z EMS EWG AAMA 10) 


图 8-7 展 示 了 实验 #2 每 次 迭代 的 MSE 评 估 (训练 和 测试 ) AE. AMA, BEEBI ORARE Tiere. 


Error Evolution 


Error Evolution 


LOO 120 160 
Epoch 


图 8-7 ”实验 #2 的 MSE 曲 线 
同样 ， 也 对 实验 #8 进行 图 形 分 析 。 可 以 发 现 MSE 曲 线 在 第 200 次 迭代 附近 趋 于 稳定 ， 如 图 8-8 所 示 。 


正如 已 经 解释 的 那样 ， 仅 仅 MSE 值 可 能 不 足以 证 明神 经 网 络 的 性 能 。 因 此 ， 采 用 测试 数据 集 来 验证 神经 网 络 的 泛 化 能 力 。 表 8-3 展 示 了 实验 #2 和 实验 # 中 有 噪声 的 实际 输出 和 神经 网 络 的 预测 输出 之 间 
的 比较 。 可 以 得 出 结论 ， 实 验 #8 得 出 的 神经 网 络 权 重 可 以 识别 出 7 个 数字 模式 ， 比 实验 #2 识别 出 的 多 。 
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图 8-8 ”实验 #8 的 MSE 曲 线 


表 8-3 ”实验 #8 和 实验 #2 的 对 照 


输出 比较 

真实 输出 (测试 数据 集 ) 数字 

00 00 00 00 00 00 00 00 00 1.0 0 

00 00 00 00 00 00 00 00 10 0.0 | 

00 00 00 00 00 00 00 10 00 0.0 2 

00 00 00 00 00 00 10 00 00 00 3 

00 00 00 00 00 10 00 00 00 0.0 4 

00 oo 00 oo 10 00 00 00 00 0.0 5 

00 00 00 10 00 00 00 00 00 0.0 6 

00 00 10 00 00 00 00 00 00 0.0 7 

00 10 00 00 00 00 00 00 00 0.0 8 

10 00 00 00 00 00 00 00 00 0.0 9 
预测 输出 (测试 数据 集 ) 实验 #2 数字 

0.20 0.26 0.09 -0.09 0.39 0.24 0.35 0.30 0.24 1.02 0 (OK) 
0.42 -0.23 0.39 0.06 0.11 0.16 0.43 0.25 0.17 -0.26 1 (ERR) 
0.51 0.84 -0,17 0.02 0.16 0.27 =0.15 0.14 -034 =0.12 2 (ERR) 
-0.20 -0.05 -0.58 0.20 -0.16 0.27 0.83 -0.56 0.42 0.35 3 (OK) 
0.24 0.05 0.72 -0.05 -0.25 -0.38 -0.33 0.66 0.05 -0.63 4 (ERR) 
0.08 0.41 -0.21 0.41 0.59 -0.12 -0.54 0.27 0.38 0.00 5 (OK) 
-0.76 -0.35 -0.09 1.25 -078 055 -0.22 0.61 0.51 027 6 (OK) 
-0.15 0.11 0.54 -0.53 0.55 0.17 0.09 -0.72 0.03 0.12 7 (ERR) 
0.03 0.41 0.49 -0.44 -0.01 0.05 -0.05 -0.03 -0.32 -0.30 8 (ERR) 
0.63 -0.47 -0.15 0.17 0.38 -0.24 0.58 0.07 -0.16 0.54 9 (OK) 

(经 ) 
输出 比较 

预测 输出 (测试 数据 集 ) 一 一 实验 #8 数字 
0.10 0.10 0.12 0.10 0.12 0.13 0.13 0.26 0.17 0.39 0 (OK) 
0.13 0.10 0.11 0.10 0.11 0.10 0.29 0.23 0.32 0.10 1 (OK) 
0.26 0.38 0.10 0.10 0.12 0.10 0.10 0.17 0.10 0.10 2 (OK) 
0.10 0.10 0.10 0.10 0.10 0.17 0.39 0.10 0.38 0.10 3 (ERR) 
0.15 0.10 0.24 0.10 0.10 0.10 0.10 0.39 0.37 0.10 4 (OK) 
0.20 0.12 0.10 0.10 0.37 0.10 0.10 0.10 0.17 0.12 5 (ERR) 
0.10 0.10 0.10 039 0.10 0.16 0.11 030 0.14 0.10 6 (OK) 
0.10 0.11 0.39 0.10 0.10 0.15 0.10 0.10 0.17 0.10 7 (OK) 
0.10 0.25 0.34 0.10 0.10 0.10 0.10 0.10 0.10 0.10 8 (ERR) 
0.39 0.10 0.10 0.10 0.28 0.10 0.27 0.11 0.10 0.21 9 (OK) 


Giz 本 章 的 实验 使 用 了 10X10 像 素 的 图 像 。 建 议 尝试 使 用 20X20 像 素 的 数据 集 来 构建 一 个 能 够 对 此 大 小 的 数字 图 像 进行 分 类 的 神经 网 络 。 


也 可 以 通过 改变 神经 网 络 的 训练 参数 来 获得 更 好 的 分 类 效果 。 


8.3 本章 小 结 


在 这 一 章 中 ， 我 们 看 到 了 神经 网 络 在 图 像 中 识别 整数 0 到 9 的 能 力 。 虽 然 在 10x10 的 图 像 中 数字 的 编码 非常 小 ， 但 是 在 实践 中 理解 这 个 概念 很 重要 。 神 经 网 络 具 有 从 数据 中 学 习 的 能 力 ， 并 且 提 供 了 把 现 
实 世界 的 表示 转换 为 数据 的 方法 ， 因 此 将 字符 识别 问题 看 成 一 个 很 好 的 模式 识别 问题 是 合理 的 。 在 提供 给 神经 网 络 预定 义 字符 的 情况 下 ， 这 里 的 应 用 可 以 扩展 到 任何 类 型 的 字符 中 。 


第 9 章 ”神经 网 络 优化 与 调整 


本 章 将 介绍 神经 网 络 优化 技术 ， 以 获得 最 佳 性 能 。 诸 如 输入 数据 选择 、 数 据 集 的 划分 和 过 滤 、 隐 藏 神经 元 个 数 的 选择 以 及 交叉 验证 策略 等 任务 ， 都 是 影响 神经 网 络 性 能 的 因素 。 此 外 ， 本 章 将 重点 介绍 
调整 神经 网 络 以 适应 实时 数据 的 方法 。 这 里 主要 介绍 两 种 技术 的 实现 。 应 用 实践 问题 将 作为 练习 。 本 着 将 讨论 以 下 主题 : 


+ 输入 数据 选择 


数据 过 滤 

- 神经 网 络 结构 选择 
“ 前 枝 

- 验证 策略 

< 交叉 验证 
RE I 
随机 在 线 学 习 

- 自 适应 神经 网 络 


- 自 适应 谐振 理论 


9.1 神经 网 络 实现 的 剃 见 问题 


当 开 发 一 个 神经 网 络 应 用 时 ， 通 常会 遇 到 结果 不 准确 的 问题 。 这 些 问 题 的 根源 是 多 方面 的 : 
. 糟糕 的 输入 数据 选择 
-噪声 数据 


数据 集 太 大 


.学习 率 不 合适 
. 停止 条 件 不 充分 
. Rb PE 64 HAE EB D> 
. 糟糕 的 验证 策略 


神经 网 络 应 用 程序 的 设计 有 时 需要 耐心 地 进行 试验 及 误差 方法 验证 。 没 有 具体 方法 论说 明 应 该 使 用 几 个 隐藏 单元 或 体系 结构 ， 但 是 关于 如 何 合理 选择 这 些 参数 ， 会 有 一 些 建议 。 程 序 员 可 能 面临 的 另 一 
个 问题 是 训练 时 间 比 较 长 ， 这 通常 会 导致 神经 网 络 无 法 学 习 数 据 。 也 可 能 无 论 训练 多 长 时 间 ， 神 经 网 络 都 不 会 收敛 。 


人 @i 寺 ”设计 一 个 神经 网 络 时 ， 程 序 员 或 设计 人 员 应 根据 需要 尽 可 能 多 次 测试 和 重新 设计 神经 结构 ， 直 到 结果 可 接受 。 


换 句 话说 ， 神 经 网 络 设计 者 希望 能 改进 结果 。 因 为 神经 网 络 会 一 直 学 习 直到 学 习 算法 达到 停止 条 件 ， 停 目 条 件 包 括 迭 代 次 数 或 者 均 方 误差 ， 而 此 时 神经 网 络 的 结果 可 能 不 够 准确 或 者 不 泛 化 。 这 就 需要 
重新 设计 神经 结构 ， 或 者 选择 新 的 数据 集 。 


9.2 ”输入 数据 选择 


设计 神经 网 络 应 用 的 一 项 关键 任务 ， 是 选择 适当 的 输入 数据 。 对 于 无 监督 情况 ， 我 们 期 望 神经 网 络 仅仅 从 相关 性 输入 变量 中 就 能 找到 模式 。 而 对 于 监督 情况 ， 需 要 将 输出 映射 到 输入 ， 因 此 我 们 只 选择 
对 输出 有 影响 的 输入 变量 维度 。 


9.2.1 数据 相关 性 

有 监督 情况 下 ， 选 择 好 的 输入 数据 的 一 个 策略 是 数据 序列 的 相关 性 ， 这 在 第 5 章 的 例子 中 已 经 实现 。 数 据 序列 的 相关 性 是 对 一 个 数据 序列 如 何 影响 另 一 个 数据 序列 的 度量 。 假 设 有 一 个 包含 许多 数据 序列 
的 数据 集 ， 首 先 从 中 选择 一 个 作为 输出 。 现 在 需要 从 剩余 的 变量 中 选择 输入 。 

相关 性 的 取 值 范围 [-1，1]， 值 接近 + 1 表示 正 相 关 ， 接 近 -1 表 示 负 相关 ， 而 值 接近 0 表示 不 相关 。 


作为 例子 ， 变 量 X 和 Y 的 相关 性 如 图 9-1 所 示 。 


图 9-1 RSX FY FA RTE 
从 图 9-1a 可 以 看 出 ， 当 其 中 一 个 变量 变 小 时 ， 另 一 个 变量 是 增 大 的 (相关 性 是 -0.8) 。 图 9-1b 显 示 了 两 个 变量 的 变化 趋势 相同 ， 因 此 它们 正 相 关 (相关 性 是 0.7) 。 图 9-1c 显 示 了 变量 不 相关 的 情况 ( 相 
关 性 是 -0.1) 。 
没有 阅 值 规则 能 够 确定 相关 性 的 限定 范围 ， 这 取决 于 应 用 程序 。 


对 于 某 个 应 用 来 说 ， 相 关 性 绝对 值 大 于 0.5 可 能 很 适合 ， 但 是 在 其 他 应 用 程序 中 ， 接 近 0.2 的 相关 性 可 能 更 好 。 


9.2.2 ”数据 转换 


线性 相关 性 能 很 好 地 检测 数据 序列 之 间 的 行为 是 否 线性 相关 。 然 而 ， 如 果 两 个 数据 序列 毫 无 线性 可 言 ， 那 么 线性 相关 性 就 无 法 识别 任何 关系 。 这 也 是 有 时 需要 将 数据 转换 成 一 个 线性 相关 视图 的 原因 。 


数据 转换 取决 于 所 面临 的 问题 。 它 包括 在 一 个 或 多 个 数据 序列 中 插入 一 个 处 理 过 的 数据 序列 。 一 个 例子 是 包含 一 个 或 多 个 参数 的 方程 (可 能 是 非 线 性 的 ) 。 在 数据 转换 视图 下 ， 有 些 行为 更 加 可 检测 。 


ta 数据 转换 还 涉及 一 些 关 于 这 个 问题 的 知识 。 然 而 ， 通 过 查看 两 个 数据 序列 的 散 点 图 ， 更 容易 选择 应 用 哪 种 转换 方式 。 


9.2.3 pÆ 


另 一 个 有 趣 的 地 方 是 天 于 删除 元 余数 据 的 。 当 在 无 监督 学 习 和 监督 学 习 中 有 大 量 可 用 数据 时 ， 这 是 必要 的 。 两 个 变量 的 天 系 如 图 9-2 所 示 。 


图 9-2 ”变量 X 和 Y 之 间 的 关系 


从 图 9-2 可 以 看 出 ， 变 量 X 和 Y 有 相同 的 形状 ， 这 就 是 了 见 余 ， 因 为 两 个 变量 都 携带 了 几乎 相同 的 信息 ， 具 有 高 度 的 正 相关 性 。 因 此 ， 可 以 考虑 主 成 分 分 析 技 术 (PCA) ， 它 提供 了 一 种 处 理 这 种 情况 的 好 


方法 。 
PCA 的 结果 是 汇总 前 面 两 个 (或 多 个 ) 变量 ， 形 成 一 个 新 的 变量 。 大 体 上 ， 原 始 序列 减 去 均值 ， 然 后 乘 以 协 方 差 矩 阵 的 转 置 特征 向 量 : 


| 


这 里 ，SXY 是 变量 X 和 Y 的 协 方 差 。 


得 到 的 新 数据 将 是 : 


Z 一 61 


新 派生 的 变量 与 原始 变量 的 对 比如 图 9-3 所 示 。 


图 9-3 ”原始 变量 与 派生 变量 的 对 比 


在 框架 中 ， 在 将 数据 应 用 到 一 个 神经 网 络 前 ， 将 添加 PCA 类 ， 用 于 执行 数据 转换 和 数据 预 处 理 : 


public class PCA { 

DataSet originalDS; 

int numberOfDimensions; 

DataSet reducedDS; 

DataNormalization normalization = new DataNormalization (DataNormalizati 
on.NormalizationTypes.ZSCORB) ; 

public PCA(DataSet ds,int dimensions) { 


this.originalDS=ds; 
this.numberOfDimensions=dimensions; 


} 


public DataSet reduceDs () { 
// matrix algebra to calculate transformed data in lower dimension 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/Text/... 


} 


public DataSet reduceDS (int numberOfDimensions) { 
this.numberOfDimensions = numberOfDimensions; 
return reduceDS; 


} 


} 


924 数据 过 滤 


因为 噪声 数据 和 脏 数 据 也 是 神经 网 络 应 用 的 问题 之 源 ， 所 以 需要 对 数据 进行 过 滤 。 去 掉 超 过 常规 范围 的 记录 ， 是 一 种 常见 的 数据 过 滤 技 术 。 例 如 温度 的 取 值 范围 是 [-40，40]， 因 此 ， 会 认为 温度 值 50 是 
一 个 离 群 值 ， 可 以 过 滤 掉 。 


3-sigma 规 则 是 一 种 有 效 的 数据 过 滤 方 法 。 它 过 滤 掉 减 去 均值 后 超过 标准 差 三 倍 的 值 : 


k. 


添加 一 个 类 来 处 理 数 据 过 滤 : 


public abstract class DataFiltering { 
DataSet originalDS; 
DataSet filteredDS; 


} 


public class ThreeSigmaRule extends DataFiltering { 
double thresholdDistance = 3.0; 

public ThreeSigmaRule (DataSet ds,double threshold) { 

this.originalDS=ds; 

this.thresholdDistance=threshold; 


} 


public DataSet filterDS () { 
// matrix algebra to calculate the distance of each point in eachcolumn http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/1 


} 


} 


这 些 类 可 以 在 DataSet 类 中 通过 以 下 方法 调用 ， 然 后 在 其 他 方法 中 调用 以 下 方法 来 进行 过 滤 和 降 维 : 


public DataSet applyPCA(int dimensions) { 
PCA pca = new PCA(this, dimensions) ; 
return pca.reduceDs () ; 


} 


public DataSet filter3Sigma (double threshold) { 
ThreeSigmaRule df = new ThreeSigmaRule (this, threshold) ; 
return df.filterDS(); 


} 


9.2.5 ”交叉 验证 


在 许多 验证 神经 网 络 的 策略 中 ， 交 叉 验 证 策略 是 很 重要 的 一 个 。 该 策略 确保 所 有 数据 都 作为 训 


练 和 测试 数据 呈现 给 神经 网 络 ( 见 图 9-4) 。 把 数据 集 划 分 为 K 组 ， 其 中 一 组 用 于 测试 ， 其 余 组 用 于 让 


图 9-4 ”交叉 验证 


代码 中 创建 一 个 名 为 CrossValidation 的 类 来 管理 交叉 验证 : 


public class CrossValidation { 
NeuralDataSet dataSet; 
int numberOfFolds; 
public LearningAlgorithm la; 
double[] errorsMSE; 
public CrossValidation(LearningAlgorithm la,NeuralDataSet nds,int folds) { 
this.dataSet= nds; 
this.la= la; | 
this.numberOfFolds= folds; 
this.errorsMSE=new double[ folds]; 


} 
public void performValidation() throws NeuralException{ 
// shuffle the dataset 


NeuralDataSet shuffledDataSet = dataSet.shuffle(); 
int subSize = shuffledDataSet.numberOfRecords/numberOfFolds; 
NeuralDataSet[] foldedDS = new NeuralDataSet [numberOfFolds]; 
for(int i=0;i<numberOfFolds; i++) { 
foldedDS [1]=shuffledDataSet.subDataSet (i*subSize, (i+1) *subSize-1); 


} 
// run the training 
for(int i=0;i<numberOfFolds; i++) { 


NeuralDataSet test foldedDS [1]; 
NeuralDataSet training = foldedDS[i==0?1:0]; 
for(int k=1;k<numberOfFolds; k++) { 


if ((1>0) && (k!=1) ) { 
training. append (foldedDS [k]); 


} 
else if (k>1) training.append(foldedDS[k]); 


} 
la.setTrainingDataSet (training) ; 
la.setTestingDataSet (test) ; 
la.train(); 

errorsMSE [i]J=la.getMinOverallError (); 


} 


9.2.6 神经 网 络 结构 选择 
为 神经 网 络 选择 一 个 适当 的 结构 也 非常 重要 。 然 而 ， 这 通常 是 基于 经 验 的 ， 因 为 天 于 一 个 神经 网 络 应 该 有 多 少 个 隐 含 神经 元 ， 没 有 任何 既定 规则 。 唯 一 的 度量 单位 是 神经 网 络 的 性 能 。 一 种 假设 是 ， 如 
果 总 体 误 差 足够 低 ， 结 构 就 是 合适 的 。 然 而 ， 也 可 能 会 有 一 个 更 小 的 结构 能 产生 同样 的 结果 。 


在 这 种 情况 下 ， 主 要 有 两 种 处 理 方法 : 构造 和 修剪 。 构 造 方法 从 输入 层 和 输出 层 开始 ， 接 着 在 隐 含 层 中 添加 新 的 神经 元 ， 直 到 得 到 一 个 好 的 结果 。 修 草 方 法 是 一 种 破坏 性 的 方法 ， 它 主要 适用 于 更 大 的 
结构 ， 在 这 个 结构 上 ， 将 输出 贡献 很 少 的 神经 元 去 掉 。 


构造 方法 如 图 9-5 所 示 。 


图 9-5 ”构造 方法 


修剪 是 一 种 回归 的 方式 : 给 定 大 量 神经 元 ， 我 们 希望 剪 掉 那些 敏感 性 很 低 的 神经 元 ， 也 就 是 说 ， 前 掉 那 些 对 误差 贡献 很 小 的 神经 元 。 如 图 9-6 所 示 。 


展示 了 很 低 的 敏感 性 ， 


p JESE 


图 9-6 ”修剪 方法 


为 了 实现 修剪 方法 ， 在 类 NeuralNet 添 加 了 以 下 属性 : 


public class NeuralNet { 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
public Boolean pruning; 
public double senstitityThreshold; 

} 


类 NeuralLayer 中 一 个 叫 removeNeuron 的 方法 ， 它 实际 上 把 神经 元 的 所 有 连接 都 设置 为 0， 禁 止 权重 更 新 ， 且 在 神经 元 输出 中 只 触发 0。 如 果 NeuralNet 对 象 的 属性 pruning 设 置 为 true， 则 调用 该 方 
法 。 根 据 链 式 法 则 计算 敏感 性 ， 如 第 3 章 所 述 ， 并 在 calcNewWeigth 方 法 中 实现 : 


@Override 

public Double calcNewWeight (int layer,int input,int neuron) { 

Double deltaWeight=calcDeltaWeight (layer, input, neuron) ; 

if (this.neuralNet.pruning) { 

if (deltaWeight<this.neuralNet.sensitivityThreshold) 
neuralNet.getHiddenLayer (layer) . remove (neuron) ; 


return newWeights.get (layer) .get (neuron) .get (input) +deltaWeight; 


} 


9.3 ”在 线 重 训练 


在 学 习 过 程 中 ， 如 何 执行 训练 很 重要 。 两 种 基础 的 方法 分 别 是 : 批 处 理 和 增 量 学 习 。 


在 批 处 理 中 ， 把 所 有 记录 都 输入 神经 网 络 ， 因 此 它 可 以 评估 误差 和 更 新 权重 ， 如 图 9-7 所 示 。 
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网 络 后 ,更 新 权重 


图 9-7” 批 处 理学 习 


在 增 量 学 习 中 ， 把 每 个 记录 输入 神经 网 络 后 都 会 执行 权重 更 新 ， 如 图 9-8 所 示 。 


一 次 把 一 条 训练 记 3 


) 把 所 有 记录 
部 输 入 网 络 


网 络 后 ， 更 新 权重 


两 种 方法 都 很 有 效 ， 而 且 分 别 有 各 自 的 优 缺 点 。 批 处 理学 习 权重 可 以 低频 更 新 (当然 ， 更 直接 ) ， 而 增 量 学 习 提供 了 一 种 调整 权重 的 方法 。 这 种 情况 下 ， 可 以 设计 一 种 学 习 模 式 ， 使 网 络 能 够 持续 地 学 
习 。 


Giex 作为 建议 练习 ， 读 者 可 以 选择 代码 中 可 用 的 一 个 数据 集 ， 在 两 种 模式 下 ， 一 部 分 记录 用 在 线 模式 训练 ， 另 一 部 分 用 批 处 理 模式 训练 。 详 见 Inctemental Learning java Xo 


9.3.1 随机 在 线 学 习 


\ 一 /一 


离线 学 习 意 味 着 神经 网 络 不 是 在 运行 中 学 习 。 每 个 神经 网 络 应 用 都 应 该 在 某 个 环境 中 工作 ， 为 了 能 在 生产 环境 工作 ， 它 应 该 经 过 适当 的 训练 。 离 线 训练 适合 于 将 网 络 投入 运行 ， 因 为 它 的 输出 会 因 大 量 
的 值 而 变化 ， 如 果 它 在 运行 ， 这 肯定 会 危及 系统 。 但 当 涉 及 在 线 学 习 时 ， 会 有 一 些 限制 。 虽 然 在 离线 学 习 中 可 以 通过 交叉 验证 和 引导 来 预测 错误 ,但 是 这 在 在 线 学 习 中 是 不 可 能 的 ， 因 为 没有 任何 “训练 数 
据 集 ”。 然 而 ， 当 需要 提高 神经 网 络 的 性 能 时 ， 就 需要 在 线 训 练 。 


当 进 行 在 线 学 习 时 ， 可 使 用 一 种 随机 方法 。 这 种 用 于 改进 神经 网 络 训练 的 算法 主要 有 两 个 特点 : 随机 选择 训练 样本 和 运行 时 (在 线 ) 学 习 率 。 当 在 目标 函数 中 发 现 噪声 时 适合 采用 这 种 方法 。 它 有 助 于 
避 开 局 部 最 小 值 (最 佳 解决 方案 之 一 ) ， 进 而 达到 全 局 最 小 值 (最 佳 解决 方案 ) 。 


算法 伪 代 码 如 下 所 示 (源码 : ftp://ftp.sas.com/pub/neural/FAQ2.html#A styles) : 


Initialize the weights. 

Initialize the learning rate. 

Repeat the following steps: 

Randomly select one (or possibly more) case(s) 

from the population. 

Update the weights by subtracting the gradient 

times the learning rate. 

Reduce the learning rate according to an 
appropriate schedule. 


9.3.2 实现 


在 java 项 目的 learn 包 中 创建 BackpropagtionOnline 类 。 该 算法 与 经 典 反 向 传播 算法 的 区 别 是 train () 方法 的 不 同 ， 该 算法 新 增 了 两 个 新 的 方法 : generatelndex RandomList () 和 
reduceLearningRate () 。 前 一 个 方法 负责 生成 一 个 随机 的 索引 列表 用 于 训练 ， 后 一 个 方法 根据 下 面 的 启发 式 算 法 执行 在 线 学 习 率 的 变化 。 


private double reduceLearningRate (NeuralNet n, double percentage) { 
double newLearningRate = n.getLearningRate() * 
((100.0 - percentage) / 100.0); 
if (newLearningRate < 0.1) { 
newLearningRate = 1.0; 
} 
return newLearningRate; 


} 


该 方法 将 在 train () 方法 结束 时 调用 。 


9.3.3 ”应 用 


这 里 使 用 前 几 章 的 数据 来 测试 新 方法 ， 进 而 训练 神经 网 络 。 前 面 每 章 (如 第 5 章 、 第 8 章 ) 中 定义 的 相同 的 神经 网 络 技术 ， 都 用 于 训练 本 章 的 网 络 。 第 一 个 是 天 气 预报 问题 ， 第 二 个 是 OCR。 结 果 对 照 见 
表 9-1。 


表 9-1 天 气 预报 和 OCR 结果 对 照 


值 标 准 天 气 预 测 OCR 


HE JG AZ [al 传播 MSE fel 0.287 778 658 4 0.001 198 171 2 
在 线 反 回 传 播 学 习 率 Found: = 0.40 


在 线 反 回 传 播 MSE 值 0.461 862 2 9.977 909 980E-6 


此 外 ， 天 气 预 报 示 例 和 OCR 示例 的 MSE 误 差 变化 图 分 别 如 图 9-9 和 图 9-10 所 示 。 
图 9-9 中 (天气 预 报 ) 学 习 率 的 变化 曲线 呈 锯 齿 形 ， 它 与 第 5 章 中 的 曲线 很 相似 。 图 9-10 中 (OCR) 显示 的 训练 过 程 更 快 ， 且 在 迭代 到 第 900 次 附近 时 ， 达 到 一 个 很 小 的 MSE 误 差 ， 然 后 停止 。 


此 外 ， 还 进行 了 其 他 实验 : 用 反 向 传播 算法 训练 神经 网 络 ， 考 虑 在 线 方法 所 发 现 的 学 习 速 度 。MSE 值 在 这 两 个 问题 上 都 有 所 减少 ， 如 图 9-11 所 示 。 
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A9-9 ”天 气 预报 的 MSE 误 差 变 化 图 
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图 9-10 OCR 的 MSE 误 差 变化 图 
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图 9-11 其 他 实验 的 MSE 误 差 


图 9-11 的 另 一 个 重要 观察 结果 是 ， 训 练 过 程 在 第 3000 次 迭代 时 终止 。 因 此 ， 它 比 第 8 章 中 使 用 同样 算法 的 训练 过 程 更 快 。 


9.4 ” 目 适 应 神经 网 络 
类 似 于 人 类 学 习 ， 神 经 网 络 也 可 能 用 于 记 住 过 去 的 知识 。 这 通过 传统 的 神经 学 方法 几乎 是 不 可 能 实现 的 ， 因 为 每 一 次 训练 都 意味 着 要 用 新 产生 的 连接 取代 所 有 旧 连 接 ， 即 会 志 记 先前 的 知识 。 因 此 ,我 
们 需要 通过 增加 连接 来 使 神经 网 络 适 应 新 的 知识 ， 而 不 是 取代 现 有 知识 。 为 了 解决 这 个 问题 ， 本 节 将 探讨 一 种 称 为 自 适 应 谐振 理论 (ART) 的 方法 。 


94.1 BEMAR 


驱动 这 一 理论 发 展 的 问题 是 : 一 个 自 适应 的 系统 如 何 保持 重要 输入 的 可 塑性 ， 同 时 保持 不 相关 输入 的 稳定 性 ” 换 句 话说 ， 在 学 习 新 信息 时 ， 它 又 如 何 能 记 住 以 前 学 到 的 信息 呢 ? 


我 们 已 经 看 到 ， 无 监督 学 习 中 竞争 学 习 可 以 处 理 模式 识别 问题 ， 即 相似 的 输入 产生 相似 的 输出 或 触发 相同 的 神经 元 。 在 ART 拓 扑 网 络 中 ， 当 从 网 络 中 检索 信息 时 ， 通 过 来 自 竞争 层 和 输入 层 的 反馈 产生 
谐振 。 所 以 ， 当 网 络 接收 到 要 学 习 的 数据 时 ， 竞 争 层 和 输入 层 之 间 的 有 反馈 会 产生 振动 。 当 该 模式 在 神经 网 络 内 部 完全 形成 时 ， 振 动 会 稳定 下 来 。 这 种 谐振 强化 了 存储 模式 。 


9.4.2 实现 


在 包 中 创建 新 类 ART， 它 继承 自 CompetitiveLearning 类 。 它 的 主要 变化 是 警惕 性 测试 : 


public class ART extends CompetitiveLearning{ 
private boolean vigilanceTest (int row i) { 

double v1 = 0.0; 

double v2 = 0.0; 

for (int i = 0; i < neuralNet.getNumberOfInputs(); i++) { 


double weightIn = neuralNet.getOutputLayer () .getWeight (i); 
double trainPattern = trainingDataSet.getIthInput (row i) [i]; 
vl = vl + (weightIn * trainPattern) ; 

v2 = v2 + (trainPattern * trainPattern) ; 


} 
double vigilanceValue = v1 / v2; 
if (vigilanceValue > neuralNet.getMatchRate () ) { 
return true; 
} else { 
return false; 
} 
} 
} 


训练 方法 如 下 所 示 。 可 以 看 到 ， 首 先 ， 初 始 化 全 局 变量 和 神经 网 络 。 接 着 ， 存 储 训练 集 的 数量 和 训练 模式 。 然 后 ， 开 始 训练 。 该 过 程 的 第 一 步 是 计算 出 获胜 神经 元 的 索引 ， 第 二 步 是 判断 神经 网 络 输出 
的 归属 。 下 一 步 是 验证 神经 网 络 是 否 已 经 学 会 ， 是 否 学 到 固定 的 权重 。 如 果 没 有 学 到 ， 输 入 另 一 个 训练 样本 : 


epoch=0; 
int k=0; 
forward (); 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
currentRecord=0; 
forward (currentRecord) ; 
while (!stopCriteria()) { 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
boolean isMatched = this.vigilanceTest (currentRecord) ; 
if ( isMatched ) { 
applyNewWeights () ; 


95 “本 章 小 结 


本 章 讨论 了 几 种 让 神经 网 络 更 好 地 工作 的 方法 ， 要 么 通过 提高 准确 率 ， 要 么 通过 扩展 它 的 知识 。 这 些 技术 在 设计 人 工 神经 网 络 解决 方案 时 提供 了 很 大 帮助 。 欢 迎 读 者 将 此 框架 应 用 于 任何 需要 使 用 神经 
网 络 的 任务 中 ， 以 探索 此 结构 所 具有 的 强大 功能 。 即 使 是 一 些 简 单 的 细节 ， 比 如 输入 数据 的 选择 ， 也 可 能 影响 整个 学 习 过 程 ， 以 及 过 滤 脏 数据 或 消除 元 余 变 量 等 。 我 们 演示 了 两 种 实现 方法 ， 这 两 种 策略 有 
助 于 提高 神经 网 络 的 性 能 : 随机 在 线 学 习 和 自 适应 谐振 理论 。 这 些 方法 能 使 网 络 扩展 其 知识 ， 从 而 适应 新 的 、 变 化 的 环境 。 


第 10 章 ”神经 网 络 当前 趋势 


最 后 一 章 展示 神经 网 络 的 最 新 趋势 。 虽 然 本 书 是 导论 性 的 ,但 是 紧 跟 最 新 的 发 展 并 了 解 理论 背后 的 科学 总 是 有 用 的 。 本 章 介绍 神经 网 络 的 最 新 进展 一 一 深度 学 习 ， 这 个 研究 方向 在 数据 科学 家 中 非常 流 
行 。 这 一 趋势 也 包括 卷 积 和 认 知 架构 ， 它 们 在 多 媒体 数据 识别 中 非常 流行 。 组 合 不 同 架构 的 混合 系统 是 一 种 解决 更 复杂 问题 或 者 涉及 数据 分 析 和 数据 可 视 化 应 用 程序 等 的 有 趣 策略 。 更 理论 地 说 ， 尽 管 提供 

a 

A 


了 混合 系统 的 实现 的 示例 ， 但 是 没有 实际 的 架构 实现 。 本 章 将 讨论 以 下 主题 : 
RAŽI 
- 卷 积 神经 网 络 
> 长 短期 记忆 网 络 


“ 混合 系统 


+ 神经 模糊 


- 实现 混合 神经 网 络 


神经 网 络 的 最 新 进展 之 一 就 是 所 谓 的 深度 学 习 。 如 今 ， 谈 论 神经 网 络 必然 谈 及 深度 学 习 ， 因 为 在 特征 提取 、 数 据 表示 和 数据 转换 的 最 新 研究 中 发 现 ， 多 层 的 信息 处 理 能 够 抽象 并 产生 更 好 的 学 习 数 据 表 
示 。 在 本 书 中 我 们 已 经 看 到 ， 神 经 网 络 需要 以 数值 形式 输入 数据 ， 无 论 原始 数据 是 分 类 数据 或 者 二 元 数据 ， 神 经 网 络 都 无 法 直接 处 理 非 数值 数据 。 但 事实 证 明 ， 在 现实 世界 中 ， 大 多 数 数据 都 是 非 数值 的 ， 
甚至 是 非 结 构 化 的 ， 比 如 图 片 、 视 频 、 文 本 等 。 


从 这 个 意义 上 来 说 ， 一 个 深层 网 络 将 有 许多 层 作为 数据 处 理 单元 来 转换 这 些 数 据 ， 并 将 转换 后 的 数据 提供 给 下 一 层 进 行 后 续 的 数据 处 理 。 这 和 大 脑 中 发 生 的 处 理 过 程 类 似 ， 即 从 神经 末梢 到 认 知 核心 。 
在 这 个 漫长 的 路 径 中 ， 信 号 被 多 层 处 理 ， 然 后 产生 控制 人 体 的 信号 。 目 前 ， 深 度 学 习 的 研究 大 多 集中 在 非 结构 化 数据 的 处 理 上 ， 特 别 是 图 像 和 声音 的 识别 和 自然 语言 处 理 。 


Bi@ 示 。 深 度 学 习 仍 然 处 于 发 展 阶段 ， 自 2012 年 以 来 发 生 了 很 大 变化 。 谷 歌 、 微 软 等 大 公司 部 有 研究 这 个 领域 的 团队 ， 未 来 几 年 很 可 能 会 发 生 新 的 变化 。 


图 10-1 显 示 了 一 个 深度 学 习 架 构 的 方案 。 
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提取 了 一 个 数据 的 新 表示 


从 另 一 方面 来 说 ， 深 度 神经 网 络 有 一 些 需 要 解决 的 问题 。 主 要 的 问题 是 过 度 拟 合 。 深 度 网 络 有 许多 层 ， 每 一 层 都 产生 新 的 数据 表示 ， 它 们 对 于 训练 数据 非常 敏感 ， 因 为 信号 在 神经 层 中 越 深入 ， 输 入 数 
据 的 变换 就 越 具体 。 正 则 化 方法 和 剪 校 通常 用 来 防止 过 度 拟 合 。 训 练 深度 神经 网 络 的 男 一 个 常见 问题 是 计算 时 间 。 标 准 的 反 向 传播 算法 可 能 需要 很 长 时 间 来 训练 深度 神经 网 络 ， 当 然 ， 选 择 较 小 的 训练 数据 
集 等 策略 可 以 加 快 训 练 速度 。 另 外 ， 为 了 训练 深度 神经 网 络 ， 通 常 建议 使 用 更 快速 的 机 器 并 尽 可 能 地 并 行 训 练 。 


10.2 ”深度 架构 


有 多 种 前 馈 和 反馈 的 深度 神经 网 络 架 构 ， 当 然 ， 它 们 通常 是 前 馈 的 。 主 要 架构 有 以 下 几 种 。 
卷 积 神经 网 络 


如 图 10-2 所 示 ， 在 这 个 架构 中 ， 这 些 层 的 组 织 方式 可 能 是 多 维 的 。 受 动物 视觉 皮层 的 启发 ， 神 经 层 的 典型 维度 是 三 维 的 。 在 卷 积 神经 网 络 (CNN) 中 ， 把 前 一 层 的 部 分 信号 馈送 到 下 一 层 的 另 一 部 分 神 
经 元 中 。 这 种 架构 是 前 馈 的 ， 并 且 可 以 很 好 地 应 用 于 图 像 和 声音 识别 。 区 分 这 种 架构 与 多 层 感知 机 的 主要 特征 是 层 之 间 的 部 分 连接 。 考 虑 到 并 非 所 有 神经 元 都 与 下 一 层 中 的 某 个 神经 元 相连 ， 所 以 连接 是 局 
部 的 并 且 尊 重 神经 元 之 间 的 相关 性 。 这 样 可 以 防止 训练 时 间 过 长 及 过 度 拟 合 ， 只 要 全 连接 MLP 的 权重 数量 随 着 图 像 尺 寸 的 增加 而 增加 。 另 外 ， 层 中 的 神经 元 以 维度 排列 ， 通 常 是 三 个 维度 ， 以 宽度 、 高 度 和 
深度 的 形式 放置 在 一 个 阵列 中 。 


HAVE 


10-2 ” 卷 积 神经 网 络 架 构 


长 短期 记忆 : 如 图 10-3 所 示 ， 像 隐 马 尔 可 夫 (HMM) 模型 一 样 ， 这 是 一 种 需要 重视 隐 含 层 最 后 一 个 值 的 循环 型 神经 网 络 。 长 短期 记忆 神经 网 络 (LSTM) 具有 LSTM 单 元 ， 不 是 传统 的 神经 元 ， 这 些 单 
元 实现 了 如 存储 和 遗忘 等 操作 来 控制 深度 网 络 中 的 流程 。 由 于 具有 长 时 间 保 存 信息 的 能 力 ， 同 时 可 以 接收 完全 非 结构 化 的 数据 ， 比 如 音频 或 文本 文件 ， 因 此 该 体系 结构 可 以 很 好 地 应 用 于 自然 语言 处 理 。 训 | 
练 这 种 网 络 的 一 个 方法 是 随时 间 反 向 传播 (BPTT) 算法 ， 但 也 有 其 他 算法 ， 比 如 强化 学 习 或 进化 策略 。 

深层 信念 网 络 : 如 图 10-4 所 示 ， 深 层 信 念 网 络 (DBN) 是 将 层 分 类 为 可 见 层 和 隐 含 层 的 概率 模型 ， 也 是 一 种 基于 受 限 玻 耳 将 曼 机 (RBM) 的 递归 神经 网 络 。 它 通常 被 用 作 训 练 深度 神经 网 络 (DNN) 
的 第 一 步 ， 深 度 神经 网 络 通过 反 向 传播 等 其 他 监督 算法 进一步 训练 。 在 这 个 架构 中 ， 每 一 层 都 像 一 个 特征 检测 器 ， 抽 象 出 新 的 数据 表示 。 可 见 层 既 作为 输出 又 作为 输入 ， 最 深 的 隐 含 层 代表 最 高 级 别 的 抽 
象 。 这 种 架构 的 应 用 场景 通常 与 卷 积 神经 网 络 相同 。 


图 10-3 ”循环 神经 网 络 


10.2.1 如 何 用 Java 实 现 深度 学 习 


因为 本 书 是 导论 性 的 ， 所 以 本 章 将 不 会 深入 探讨 深度 学 习 。 但 是 ， 本 章 针 对 深层 体系 结构 代码 提供 了 一 些 建议 。 这 里 提供 了 一 个 如 何 实现 卷 积 神经 网 络 的 例子 。 需 要 实现 ConvolutionalLayer 类 来 表示 
一 个 多 维 层 ， 卷 积 神经 网 络 本 身 则 由 CNN 类 来 实现 。 


public class ConvolutionalLayer extends NeuralLayer { 
int height,width, depth; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
ArrayList<ArrayList<ArrayList<Neuron>>> neurons; 
Map<Neuron,Neuron> connections; 
ConvolutionalLayer previousLayer; 
// the method call should take into account the mapping 
// between neurons from different layers 
@Override 
public void calc() { 
ArrayList<ArrayList<ArrayList<double>>> inputs; 
foreach (Neuron n:neurons) { 
foreach (Neuron m:connections.keySet () ) { 
// here we get only the inputs that are connected to the neuron 


} 


} 
} 
public class CNN : NeuralNet { 
int depth; 
ArrayList<ConvolutionalLayer> layers; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 
@Override 
public void calc() { 
// here we perform the calculation for each layer, 
// taking into account the connections between layers 


} 


在 这 个 类 中 ， 神 经 元 是 按 维度 组 织 的 ， 剪 枝 的 方法 用 于 在 层 之 间 建 立 连 接 ， 更 多 的 细节 请 参阅 文件 ConvolutionlLayer.java 和 CNN.java。 
由 于 其 他 体系 结构 是 循环 型 的 ， 因 此 本 书 不 讨论 循环 神经 网 络 (在 导论 性 的 书 中 ， 为 了 简单 起 见 ) ， 它 们 仪 供 读者 参考 。 建 议 读者 查看 提供 的 参考 资料 ， 以 了 解 更 多 关于 这 些 体 系 结构 的 信息 。 
混合 系统 


在 机 器 学 习 中 ， 甚 至 在 人 工 智 能 领域 ， 除 神经 网 络 之 外 还 有 许多 其 他 的 算法 和 技术 。 每 种 技术 都 有 其 优点 和 缺点 ， 这 激励 了 很 多 研究 人 员 将 它们 结合 在 一 个 单一 结构 中 。 神 经 网 络 是 人 工 智 能 连接 方法 


的 一 部 分 ， 其 中 操作 是 在 数值 和 连续 值 上 执行 的 。 然 而 ， 还 有 其 他 方法 ， 包 括 认 知 (基于 规则 的 系统 ) 和 进化 计算 ， 见 表 10-1。 


表 10-1 人 工 智 能 方法 


连接 方法 进化 
数值 处 理 WUE AAS y Ab FE 
大 型 网 络 结构 大 规则 库 和 前 提 大 量 的 解决 方案 
性 能 统计 专家 或 统计 设计 和 母 次 迭代 都 会 产生 更 好 的 解决 方案 


连接 主义 的 主要 代表 是 神经 网 络 ， 神 经 网 络 不 同 的 架构 用 于 不 同 的 目的 。 一 些 神经 网 络 (例如 ， 多 层 感 知 机 (MLP) ) 能 很 好 地 映射 非 线 性 输入 /输出 行为 ， 而 其 他 的 神经 网 络 (如 自 组 织 映射 
(SOM) ) 能 很 好 地 发 现 数据 中 的 模式 。 一 些 体系 结构 (如 径 向 基 国 数 (RBF) 网 络 ) 在 训练 和 处 理 的 不 同步 骤 中 结合 了 多 种 特征 。 


使 用 混合 神经 系统 的 一 个 动机 ， 同 时 也 是 深度 学 习 的 基础 之 一 ， 就 是 特征 提取 。 像 图 像 识 别 这 样 的 任务 ， 在 分 辨 率 非常 高 的 时 候 变 得 非常 难以 处 理 。 然 而 ， 如 果 这 些 数 据 可 以 压缩 或 减少 ， 处 理 将 变 得 
简单 许多 。 


尽管 人 工 智能 变 得 更 加 复杂 ， 但 是 将 它 的 多 种 方法 结合 起 来 很 有 趣 。 在 这 种 情况 下 ， 回 顾 两 种 策略 : 神经 模糊 和 神经 遗传 。 


Giz “考虑 到 本 章 提出 的 概念 是 先进 的 ， 我 们 不 提供 完整 的 代码 实现 ， 只 提供 如 何 开始 实现 这 些 概念 的 基本 结构 片段 。 


10.2.2 ”神经 模糊 


模糊 逻辑 是 一 种 基于 规则 的 处 理 ， 根 据 隶 属 函 数 将 每 个 变量 转换 为 符号 值 ， 然 后 在 IF-THEN 规 则 数据 库 中 查询 所 有 变量 的 组 合 ， 如 图 10-5 所 示 。 


模糊 处 理 


规则 数据 库 


图 10-5 ”神经 模糊 


隶属 函数 通常 是 高 斯 钟 形 的 ， 这 告诉 我 们 给 定 的 值 属于 该 类 别 的 可 能 性 。 举 个 例子 来 说 ， 温 度 可 以 分 为 三 种 不 同 的 类 别 (寒冷 、 正 常 和 温暖 ) 。 如 图 10-6 所 示 ， 温 度 越 接近 钟 的 中 心 ， 隶 属 值 就 越 高 。 


此 外 ， 模 糊 处 理 可 以 找 出 哪些 规则 是 由 哪 条 输入 记录 触发 的 ， 又 产生 了 哪些 输出 值 。 神 经 模糊 体系 结构 以 不 同方 式 处 理 每 个 输入 ， 所 以 第 一 个 隐 含 层 对 于 每 个 隶属 函数 都 有 一 组 相应 的 神经 元 ， 如 图 10- 
7 所 示 。 


AE ae 


温度 隶属 函数 


图 10-6 
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的 加 权 和 


图 10-7 神经 模糊 体系 结构 


Giz 在 这 个 体系 结构 中 ， 训 练 只 给 出 规则 处 理 的 最 佳 权 重 和 后 续 参 数 的 加 权 和 ， 第 一 个 隐 含 层 是 没有 可 调 权 重 的 。 
在 模糊 逻辑 体系 结构 中 ， 专 家 定义 了 一 个 规则 数据 库 ， 随 着 变量 数量 的 增加 ， 这 个 规则 数据 库 可 能 会 变 得 很 庞大 。 神 经 模糊 体系 结构 使 设计 者 从 规则 制订 中 解放 出 来 ， 让 神经 网 络 来 执行 这 个 任务 。 神 
经 模糊 结构 的 训练 可 以 通过 监督 模式 下 的 梯度 算法 (比如 反 向 传播 ) 或 者 矩阵 代数 (比如 最 小 二 乘 ) 来 进行 。 神 经 模糊 系统 适用 于 动态 系统 的 控制 和 诊断 。 


10.2.3 ”神经 遗传 


在 进化 的 人 工 智 能 方法 中 ， 一 种 常见 的 策略 是 遗传 算法 。 这 个 名 字 的 灵感 来 源 于 自然 进化 ， 它 指出 更 适应 环境 的 生物 能 够 繁衍 出 适应 性 更 好 的 下 一 代 。 在 计算 智能 领域 ， 生 命 或 个 体 指 代 解决 优化 问题 
的 候选 方案 或 假设 。 监 督 的 神经 网 络 用 于 优化 ， 因 为 我 们 想 要 通过 调整 神经 权重 来 使 误差 最 小 化 。 虽 然 训 练 算法 能 够 通过 梯度 方法 找到 更 好 的 权重 ， 但 它们 往往 落 在 局 部 最 小 值 上 。 尽 管 正则 化 和 动量 等 一 
些 机 制 可 以 改善 结果 ， 但 是 一 旦 权重 落 在 局 部 最 小 值 上 ， 就 不 太 可 能 再 找到 更 好 的 权重 ， 而 遗传 算法 非常 擅长 处 理 这 种 情况 。 


将 神经 权重 看 作 遗 传 密码 (或 DNA) 。 如 果 可 以 生成 有 限 数 量 的 随机 权重 集 ， 并 评估 哪个 会 产生 最 好 的 结果 ( 较 小 的 误差 或 其 他 性 能 测量 ) ， 我 们 将 选择 N 个 最 佳 权重 ， 然 后 对 它们 应 用 遗传 操作 ， 如 


繁殖 (交换 权重 ) 和 变异 (权重 随机 变化 ) ， 如 图 10-8 所 示 。 


神经 权重 


图 10-8 ”神经 遗传 
重复 此 过 程 ， 直 到 找到 一 些 可 接受 的 解决 方案 。 


另 一 种 策略 是 对 神经 网 络 参数 使 用 遗传 操作 ， 如 神经 元 数量 、 学 习 率 、 激 活 函 数 等 。 考 虑 到 这 一 点 ， 总 是 需要 调整 参数 或 多 次 训练 ， 以 确保 我 们 找到 了 一 个 好 的 解决 方案 。 所 以 ， 可 以 用 遗传 码 (参数 
集 ) 对 所 有 参数 进行 编码 ， 并 为 每 个 参数 集 生 成 多 个 神经 网 络 。 


遗传 算法 的 方案 如 图 10-9 所 示 。 


6. 淘汰 较 绊 的 和 较 7。 保存 获得 最 小 
1. 随机 化 一 组 权重 ie 较 弱 的 和 较 ge 
MSE 值 


8. 如 果 发 现 性 能 已 
2. 计算 每 组 权重 的 .选择 一 些 集 合 渤 经 达到 要 求 或 达到 最 


表现 (MSE 误差 ) pa KGERKEL, HANS 
又 9， 否 则 返回 步 又 2 


3. 将 每 组 权重 排序 ， a ee 
根据 性 能 分 配 选 择 的 t ME ERHAN 9. FARITE MSEK 


概率 Hi 集合 标记 为 最 佳 方案 


图 10-9 ”遗传 算法 的 方案 


Qar 遗传 算法 广泛 用 于 许多 优化 问题 ， 但 在 本 书 中 ， 它 们 只 用 来 解决 权重 和 参数 优化 问题 。 


10.3 ”实现 混合 昼 经 网 络 


现在 ， 实 现 一 段 简单 的 代码 ， 它 可 以 在 神经 模糊 和 神经 遗传 网 络 中 使 用 。 首 先 ， 需 要 定义 高 斯 激活 函数 ， 这 将 是 隶属 函数 : 


public class Gaussian implements ActivationFunction{ 
double A=1.0,B=0.0,C=1.0 
public Gaussian (double A){ // /http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 
} 
public double calc (double x) { 
return this.A*Math.exp (-Math.pow(x-this.B,2.0) / 2*Math. 
pow (this.C,2.0)); 


r 


} 
} 


模糊 集合 和 规则 需要 以 神经 网 络 能 够 理解 和 推动 执行 的 方式 来 表示 。 该 表示 包括 每 个 输入 的 集合 的 数量 (因此 具有 关于 神经 元 如 何 连接 的 信息 ) ， 以 及 每 个 集合 的 隶属 函数 。 可 以 使 用 数组 来 表示 数 


量 。 集 合 数组 表示 每 个 变量 有 多 少 个 集合 ; 规则 数组 是 一 个 和 矩阵， 其 中 每 一 行 代 表 一 个 规则 ， 每 一 列 代表 一 个 变量 ; 可 以 给 每 个 集合 分 配 一 个 数值 型 整数 值 以 供 规则 数组 参考 。 下 面 的 代码 段 中 定义 了 三 个 
变量 ， 每 个 变量 都 有 三 个 集合 ， 并 附 有 规则 。 


int[{] setsPerVariable = {3,3,3}; 
int[][] rules = {{0,0,0},{0,1,0}, {1,0,1}, {1,1,0},{2,0,2},{2,1,1}, 
{2,2,2}}; 


隶属 函数 可 以 在 一 个 序列 化 数组 中 引用 : 


工 


ActivationFunction[] fuzzyMembership = {new Gausian(1.0),// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


FF? 


还 需要 为 神经 模糊 体系 结构 的 层 创 建 类 ， 如 InputFuzzyLayer 和 RuleLayer。 它 们 可 以 是 超 类 NeuroFuzzyLayer 的 子 类 ，NeuroFuzzyLayer 继 承 自 NeuralLayer。 这 些 类 是 必要 的 ， 因 为 它们 与 已 定义 的 
神经 层 工 作 方式 不 同 。 


public class NeuroFuzzyLayer extends NeuralLayer{ 
double[] inputs; 
ArrayList<Neuron> neurons; 
Double[] outputs; 
NeuroFuzzyLayer previousLayer; 
// /nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/17665/OEBPS/Text/... 


工 


public class InputFuzzyLayer extends NeuroFuzzyLayer { 
int[] setsPerVariable; 
ActivationFunction[] fuzzyMembership; 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 


工 


} 
public class RuleLayer extends NeuroFuzzyLayer { 
int[{][] rules; 
// http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/17665/OEBPS/Text/... 


} 


工 


NeuroFuzzy 类 继承 自 NeuralNet，5 引 用 其 他 模糊 层 类 。 考 虑 到 隶属 国 数 中 心 ，NeuroFuzzyLayer 的 calc () 方法 也 会 有 所 不 同 。 


public class NeuroFuzzy extends NeuralNet{ 
InputFuzzyLayer inputLayer; 

RuleLayer ruleLayer; 
NeuroFuzzyLayer outputLayer; 

// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17665/OEBPS/Text/... 


} 


工 


更 多 详细 信息 ， 请 参阅 edu.packt.neuralnet.neurofuzzy 包 中 的 文件 。 


为 了 编码 神经 遗传 的 权重 集 ， 需 要 定义 遗传 操作 。 创 建 NeuroGenetic 类 来 实现 繁衍 和 变异 。 


public class NeuroGenetic{ 
// each element ArrayList<double> is a solution, i.e. 
// a set of weights 
ArrayList<ArrayList<double>> population; 
ArrayList<double> score; 
NeuralNet neuralNet; 
NeuralDataSet trainingDataSet; 
NeuralDataSet testDataSet; 
public ArrayList<ArrayList<double>> reproduction (ArrayList<ArrayList 
<double>> solutions) { 
// a set of weights is passed as an argument 
// the weights are just swapped between them in groups of two 


} 
public ArrayList<ArrayList<double>> mutation (ArrayList<ArrayList<dou 
ble>> solutions) { 
// a random weight can suddenly change its value 
} 
} 


下 一 步 是 在 每 次 迭代 中 对 每 个 权重 进行 评估 。 


public double evaluation (ArrayList<double> solution) { 
neuralNet.setAllWeights (solution); 

LearningAlgorithm la = new LearningAlgorithm(neuralNet, trainingData 

Set); 
la. forward (); 

return la.getOverallGeneralError (); 


} 


最 后 ， 可 以 通过 使 用 下 面 的 代码 来 调用 神经 遗传 算法 。 


public void run{ 

generatePopulation () ; 

int generation=0; 

while (generation<MaxGenerations && bestMSError>MinMSError) { 
// evaluate all 
foreach (ArrayList<double> solution:population) { 

score.set (i,evaluation (solution) ); 


// make a rank 
int[{] rank = rankAll (score); 
// check the best MSE 

if (ArrayOperations.min (score) <bestMSError) { 
bestMSError = ArrayOperations.min (score) ; 


bestSolution = population.get (ArrayOperations.indexMin (score) ) ; 


to 


} 

// perform a selection for reproduction 

ArrayList<ArrayList<double>> newSolutions = reproduction ( 

selectionForReproduction (rank, score, population) ); 

// perform selection for mutation 

ArrayList<ArrayList<double>> mutated = mutation (selectionForMutati 
on (rank, score, population) ); 

// perform selection for elimintation 
if (generation>5) 

eliminateWorst (rank, score, population) ; 

// add the new elements 
population. append (newSolutions) ; 
population. append (mutated) ; 


} 


System.out.printin ("Best MSE found:"+bestMSError) ; 


} 


10.4 ”本 章 小 结 


最 后 一 章 介 绍 了 该 领域 的 下 一 步 工作 。 本 章 更 具 理 论 性 ， 更 侧重 于 功能 和 信息 ， 而 不 是 实际 的 实现 ， 因 为 实际 实现 对 于 导论 性 的 书籍 而 言 显得 太 “ 重 ”了 。 对 每 种 情况 ， 都 提供 了 一 段 简单 的 代码 来 提 
示 如 何 进一步 实现 深度 神经 网 络 。 然 后 鼓励 读者 修改 前 面 章 节 的 代码 ， 使 它们 适应 混合 神经 网 络 ， 并 进行 结果 的 比较 。 作 为 一 个 非常 活跃 和 新 颖 的 研究 领域 ， 每 时 每 刻 都 有 新 的 方法 和 算法 被 开发 ， 参 考 文 
献 中 提供 了 关于 这 个 主题 的 最 新 出 版 物 列 表 。 
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